机器人是怎么知道如何抓握杯子的？( 六 ) 机器之心分析师网络作者：Y

文章插图
[9]中的抓握功能推理框架，由学习（learn），查询（query）和映射（mapping）组成。学习的模型（由白色矩形标注）使用彩色线段对节点之间的关系进行编码（图源：Ardón P., Pairet è. , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.）
相对于 [6] ，[9] 专注于解决抓握功能的推理，同时对其进行了很多细分。在此之后，[9] 将一组细分后的掌握功能与一个物体相关联。下图描绘了在不同室内场景中，不同形状的物体可能对应的抓握功能。三个箭头按照颜色代表物体上不同位置更可能或更不可能拥有的抓握功能。所有的可能性都已经经过了归一化处理，在（+1 ， -1）内分布，数值越高，则代表可能性越大。
有趣的是，可以看到，在不同的抓握功能中，与性状最无关的功能是移交（hand over）。而其他功能，如盛纳（contain）则与物体的形状关联度很大。开放式容器更有可能具有盛纳功能而其他形状如螺丝刀等则最不可能具有盛纳功能。
文章插图
对物体的形状和抓握功能之间的可能性进行可视化（图源：Ardón P., Pairet è. , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.）
结论
不难看出， Affordance 的研究重点之一是发展机器人的泛化能力。正如人类能够对形状明显不同但 Affordance 相同的物体——比如玻璃杯 vs 葡萄酒杯——成功进行推理，同时还不会混淆形状相同但 Affordance 不同的物体，比如杯子和蜡烛。我们离人类的水平目前还有一段距离，但得益于深度学习的发展， Affordance 的推理也取得了很多突破。特别是 CNN 结合知识图谱的路线，已经提供不少非常有希望的结果。
但另一方面，硬件仍然是这个领域内的一个挑战。相较于普通的视觉任务（vision task），深度信息对于 Affordance 的学习至关重要。想象一下上文中两个杯子交缠的例子，若没有深度信息模型就无法正确推理。虽然这个例子比较极端，但当机器人需要和真实世界——一个有很多静止和非静止物体的世界——进行交互时，深度信息绝对是必不可少的。此外，如果模型不能被部署在云端上，算力也是对目前机器人身上的硬件的一个挑战。使用模拟或者使用神经网络，这两个方法对算力的要求都比较高，并且很多研究在推理并定位了 Affordance 还需要将结果投射到 3D 模型上，又进一步加大了硬件算力方面的挑战。
总的来说，笔者对机器人这一领域的发展充满信心，期待能够尽快看到更多研究上的突破落实到实际生产中。也许在不远的将来，我们就能在海底捞看到机器人服务员为你端茶倒水、为你表演扯面了呢 :-）
参考文献
【机器人是怎么知道如何抓握杯子的？】[1] J. J. Gibson (1966). The Senses Considered as Perceptual Systems. Allen and Unwin, London.
[2] J. J. Gibson (1975). 'Affordances and behavior'. In E. S. Reed & R. Jones (eds.), Reasons for Realism: Selected Essays of James J. Gibson, pp. 410-411. Lawrence Erlbaum, Hillsdale, NJ, 1 edn.
[3] H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.
[4] K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018). Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.
[5] Y. Zhu, C. Jiang, Y. Zhao, D. Terzopoulos, and S.-C. Zhu.(2016). Inferring forces and learning human utilities from videos. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3823–3833.
[6] Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge Base Representation. ECCV.
[7] Montesano L. and Lopes M. (2009).,Learning grasping affordances from local visual descriptors. 2009 IEEE 8th International Conference on Development and Learning
[8] Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.