苏眠月|使用价值迭代网络进行规划( 二 )
假设我们的代理位于地图的左下角 , 并且必须安全地导航到绿色区块 。 必须区分规划轨迹或寻找政策 。 如果我们计划一个轨迹 , 我们将得到一个序列 , 指定应该采取行动的顺序 , 例如:(向上 , 向上 , 向右 , 向右 , 向右) 。 如果我们的问题是确定性的 , 选择一个方向会使我们的代理人在这个方向上有100%的机会 , 那么这将对应于轨迹:
假设我们知道问题中所有状态的最优值;V*(s) , 我们现在可以定义从我们的州采取特定行动并从此采取最佳行动的价值;Q*(S , A) 。
