苏眠月|使用价值迭代网络进行规划( 二 ) 虽然强化学习算法的设计使得该策略应该

假设我们的代理位于地图的左下角，并且必须安全地导航到绿色区块。必须区分规划轨迹或寻找政策。如果我们计划一个轨迹，我们将得到一个序列，指定应该采取行动的顺序，例如：（向上，向上，向右，向右，向右）。如果我们的问题是确定性的，选择一个方向会使我们的代理人在这个方向上有100％的机会，那么这将对应于轨迹：
但回到我们的例子，我们如何才能找到如上图所示的最优政策？对于称为值迭代的这类问题，存在一种经典算法。该算法的作用是计算当前处于某种状态可以实现的长期利益，通过提出问题"如果我从这个状态开始，我能获得的最大利润是多少？" 。这个数量被称为MDP术语中的状态值，直观上很容易看出，如果我们知道每个州的价值，我们可以尝试始终转移到具有更高价值的国家并从中获益。
假设我们知道问题中所有状态的最优值;V*（s），我们现在可以定义从我们的州采取特定行动并从此采取最佳行动的价值;Q*（S ， A）。