领域|强化学习算法DeepCube，机器自行解决复杂魔方问题( 四 ) 自行解决|rl|强化|机器|算法

转换性能：另一方面，我们需要对某一状态进行所有可能的旋转操作，并且要求这些操作快速完成。如果在内存中的状态表示非常紧凑（例如使用位编码），这会导致魔方侧面的每一次旋转需要进行冗长的解压缩过程，严重影响训练速度。
适宜的神经网络：就像其他机器学习、深度学习实例中那样，并非每个数据表示都符合神经网络的输入格式。在NLP中通常使用字符或单词嵌入，在CV中将图像从jpeg解码为原始像素，Random Forests则需要对数据进行大量特征设计等。
在本文中，使用独热编码将三阶魔方的每个状态表示为20×24张量。接下来以下图为例，对这种表示方式进行说明。

文章插图
将魔方中需要关注的面标为白色
上图中，我们用白色标记了我们需要关注的魔方模块，其余部分（蓝色）是冗余的，不需过多关注。我们都知道，3x3魔方由三种类型的模块组成：8个三色的角块，12个两色的侧边块和6个单色的中心块。
虽然不太明显，但实际上根本不需要过多关注中心块，因为它们不能更改其相对位置，只能整体旋转。因此，对于中心块，我们只需就其位置达成一致就可以。例如，在我的实现中，白色面总是在顶部，前面是红色，左边是绿色，依此类推。这使得数据集状态的部分固定，意味着将魔方上所有可能的旋转被视为同一状态。
由于无需关注中心块，所以在上图中所有中心块都是蓝色。那其余蓝色是怎么回事呢？这是因为每种特殊的立方模块（角块或侧变块）的颜色组合都是固定的。例如，根据上述对魔方前后左右各方向的定义（顶部为白色，红色为正面等等），左上角块一定是绿色、白色和红色，其他立体块不会有这三种颜色的组合。侧边块也是如此。
因此，要找到某个特定模块的位置，我们只需要知道其某个面的位置即可。一般来说，你可以在侧边块或角块选择一个面进行跟踪关注，但是一旦选定，就要坚持下去。如上图所示，我们选择在顶部跟踪八个立方块贴面，从底部跟踪八个贴面，以及四个侧边块贴面，两个在正面，两个在背面。这样，我们需要跟踪关注的总计有20个贴面。
那么，张量维度中的“ 24”是从哪里来的？我们总共要跟踪20种不同的贴面，但是由于魔方旋转，它们可能出现在不同的位置，至于具体位置，这取决于要跟踪的立体块的类型。以角块开始说明，我们总共有8个角块，旋转魔方可以按任何顺序对它们进行重新排列。因此，任何一个角块都可能出现在8个角中的任何一个位置。此外，每个角块也可以旋转，例如，这会使“绿色、白色、红色”对应的角块有以下三种可能的方向：