机器人是怎么知道如何抓握杯子的?
机器之心分析师网络
作者:Yuanyuan Li
编辑:Joni
如何推理一个物体的 Affordance 是机器人相关研究的一个重点关注方向 。 在具体的 Affordance 中 , 抓取(grasping)又是格外重要的一个功能 。
前言
作为最早提出 Affordance 这一概念的学者 , James Gibson 在他的书 [1] 中正式定义了 Affordance:
Affordance 是环境所允许个人能实现的功能(Affordance is what the environment offers the individual) 。
不过 Affordance 所最为人知的定义应该是在他几年后出版的书 [2] 中的定义:
Afford 是在字典中存在的一个词 , 但 Affordance 不是 。 Affordance 是我个人创造出来的一个词 。 Affordance 指代环境为动物 / 人类提供的一种功能 。 我想用这个词来表达环境和动物 / 人类的互补性 。
在中文语境下 , Affordance 可以大致理解为物体 / 环境的直观功能 。 虽然语意上比较难以理解 , Affordance 却是每个人在日常生活中下意识便会应用的技能 。 举例来说 , 当人类看到一个马克杯的时候 , 他 / 她立刻就能够理解杯子是可以用来盛物体的——不论是咖啡等液体还是固体——并且马克的杯柄可以被抓握 。 除此之外 , 假如人类看到茶杯、玻璃杯、酒杯等任何非马克杯的物体 , 也不会因此而无法推断该物体是否还能够盛物体 。 人类几乎天然就理解小型物体上的柄可以被抓握和应该从那个角度抓握 。 人类也可以轻易理解门上的把手是用来推或拉的 , 挂钩上的钩子是用来挂东西的、家用电器上的按钮是用来按(或者扭)的 。 设计师在设计产品时也必须将物体的 Affordance (直观功能)和如何引导用户理解物体的 Affordance 纳入考虑中 。 不信?请移步设计师 Katerina Kamprani 精心设计的「不舒服」的产品一览究竟 。
文章插图
设计师 Katerina Kamprani 设计的一系列让人感觉「不舒服」的产品 , 其实就是违反了一个物件应该有的 Affordance(图源:)
虽然 Affordance 是人类与生俱来的技能点 , 机器人却没有这样的「运气」 。 由于机器人本质上只是在运行人类开发的软件而不能进行真正的推理——至少目前还是这样——机器人对 Affordance 的理解取决于人类在这一领域的研究进展 。 实际上 , 机器人领域的研究已经证明了 Affordance 远远不止是只存在于书本中的心理学概念 。 具体来说 , 物体的抓取和操纵中 , 机器人需要通过视觉线索和经验中学习周围环境中物体的 Affordance , 包括是否可以操纵物体、如何抓握物体以及学习操作对象以达到特定目标 。
不难看出 , 如何推理一个物体的 Affordance 是相关研究的一个重点关注方向 。 在具体的 Affordance 中 , 抓取(grasping)又是格外重要的一个功能 。 这两点将是本文的讨论重点 。
推理
推理(reasoning)Affordance 很好理解 , 即推断一个物体的 Affordance —— 不论是通过视觉上的线索 , 还是通过过去的经验知识 。 机器人需要理解有柄的物体可以抓握 , 带有凹陷的物体可以盛物品 。
推理物体的 Affordance 可以简单分为推理单一物体的 Affordance 和推理多个物体的 Affordance 。 由于多个物体间可能存在互动 (interaction) , Affordance 的推理很容易就会变得非常复杂 。 本文将集中于单一物体的 Affordance 推理 。
文章插图
两个物体之间可能有互动(interaction) , 从而改变了物体的 Affordance 。 (图源:)
具体来说 , 学习推理单一物体 Affordance 的方法可以分为三类:通过模拟(simulation)、通过视觉特征(visual features)、和通过构建知识图谱(knowledge graph) 。
通过模拟(simulation)
在 [3] 中 , Hongtao Wu 和 Gregory S. Chirikjian 利用模拟物体落入容器中的物理过程来对开放式容器——即无盖的容器 , 杯子、碗、碟等——的容纳性 (containability affordance)进行推理 。 还是用水杯举例 , 当机器人面对一个水杯时 , 需要模拟从水杯上方倾倒物体的结果——物体是会落到桌面上还是会落到水杯内?假如机器人面对的是一个没有杯底的水杯 , 结果是什么?
整个实验中 , 作者使用了一个具有抓握功能的机器手 , 并在其上安装了 RGB-D 摄像机来对推理对象进行扫描 。 在 RGB-D 摄像机下有一个透明的平台 , 被推理的物体将会被放置在其上 。 具体设置如下图所示 。
文章插图
实验设计(图源:H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.)
- 看不上|为什么还有用户看不上华为Mate40系列来看看内行人怎么说
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 行业|现在行业内客服托管费用是怎么算的
- 王兴称美团优选目前重点是建设核心能力;苏宁旗下云网万店融资60亿元;阿里小米拟增资居然之家|8点1氪 | 美团
- 手机基带|为了5G降低4G网速?中国移动回应来了:罪魁祸首不是运营商
- 技术|做“视频”绿厂是专业的,这项技术获人民日报评论点赞
- 互联网|苏宁跳出“零售商”重组互联网平台业务 融资60亿只是第一步
- 体验|闭上眼睛点外卖是什么感觉?时隔一年再次体验,进步令人欣慰
- 再次|华为Mate40Pro干瞪眼?P50再次曝光,这次是真香!
- 当初|这是我的第一部华为手机,当初花6799元买的,现在“一文不值”?
