米兰·(milan)中国官方网站-“行胜于言”:语言模型如何适应机器人?

解读 | Antonio
编纂丨陈彩娴Google Brain的呆板人团队(Robotics at Google)近来发布了一篇文章,先容了他们怎样将年夜范围语言模子的“说”的能力及呆板人“行”的能力联合于一路,从而付与呆板人更合用在物理世界的推理能力(physically-grounded)。
1念头面临对于方“我不小心洒了我的饮料,你可以帮我一下吗?”的问题的时辰,你会怎么反映?
你评估一下当下的情况,可能会帮对于方把饮料瓶整理失,假如周围有抹布,你会拿起抹布帮他整理洁净,固然这些一步一步的指令可能会于你的心中默念一遍。
当你没有不雅察到吸尘器于周围时辰,你显然不会告诉对于方要利用吸尘器整理,由于那不切合当下的情况前提。
如许的举动决议计划已经经表现了两个步调:面临一个乞助,你拥有一些可以解决当下问题的举动候选项,然后你还有患上现实下来,选择最切合实际的阿谁举动。
放于呆板人的语境下,于前一个步调,咱们需要一个语言模子去理解一段人类语言发出的指令,并“说出”咱们可能的种种解决方案;第二个步调需要联合周围情况,挑出那些切合实际世界的方案。
这篇文章就是试图将这两个举动解耦出来,并以得当的方式联合于一路。
起首是用在理解及天生可能的候选项的第一步。很天然地,文章利用了此刻于天然语言处置惩罚范畴很风行的年夜范围语言模子(LLM)。它可所以天生式的,即面临一个问题,天生可能的问答,以下图所示:

三个LLM给出的回应
可以看出这类天生式的布局并不是合用于面临举动的呆板人范畴,一方面如FLAN模子输出的成果没有明确的举动指令;另外一方面,纵然像GPT3中给出了详细的做法,它仍旧没有思量到实际场景:万一当下没有吸尘器呢?
就像开首想表达的:会说甚么其实不主要,主要的是可行吗?
是以,第二个步就需要思量呆板人所处的情况、它可以或许完成的举动、它当下拥有的技术等等了,这些往往采用强化进修的value function(VF)或者者affordance function举行评估。
假如将第一步的LLM视作是可以思索及发言的“心及嘴”,后一步的affordance则充任了“眼及手”的功效。前一步“说”(Say),后一步判定“能”(Can)做甚么,文章将这一模子起名为SayCan。
2要领从上文所述文章要领的要害是怎样将没有与实际世界联合的“抱负化”的LLM变患上越发“实际”。只是按照一段指令,采用对于话天生的方式孕育发生一段虽然合理可是无关的语句并不是咱们所要的。是以,SayCan采用了prompt以和给特定举动打分的方式。
详细而言,呆板人先不雅察周围情况,使用VF找出一些可行(actionable)的举动候选项。LLM按照问题及一小段prompt对于在这些举动举行打分。
VF及LLM打出的两个分数的乘积作为终极选择该举动的置信度,遴选出最高患上分的举动作为这一步选择的举动。
以后,将当前选择的举动于接到上一步的回覆模板中,作为下一步的模板输入,继承反复上述的动作,递归式揣度以后的举动,直到终极揣度出一个竣事的标记。这一历程,可以参考下图。

选择举动的流程示用意
详细LLM是怎样做的呢?
以下图所示,LLM采用模板“I would:1.”作为回覆“How would...”问题的号令辞汇(prompt)。值患上留意的是,文章中也提到,如许以比力尺度的方式开首的对于话都是于呆板人语境下专门设计的,实际场景可能会越发繁杂。除了此以外,用在in-context learning的例子也由近似的语句组成,为了让模子天生语句时辰有所参考,也就是图中的:prompt engineering的部门。
以后的LLM是针对于预选好的举动举行打分,是一种近似分类或者者检索的方式,而不是天生式的。

LLM的详细实现历程
整个实现可以参考以下的伪代码:

文章于模仿的厨房及实际的厨房做了测试,这包括101个由差别语言指令组成的使命,下面展示了一些SayCan完成的例子,作为给出了人类的指令,右侧则是呆板人按照LLM及VF配合解码出来的指令序列。蓝色的条图暗示LLM对于在特定动作获得的几率打分,右侧则是经由过程VF获得的分数。
场景一
人类:我洒了可乐,你能帮我用甚么清算洁净吗?
呆板人:我会1)找到一块抹布。2)拿起这块抹布。3)把它带给你。4)完成。

示例场景一
场景二
人类:我洒了可乐,你能帮我从头拿一罐吗?
呆板人:我会1)找到一罐可乐。2)拿起这罐可乐。3)把它带给你。4)完成。

示例场景二

示例场景三
场景三
人类:你会怎么把抹布放于衣柜上
呆板人:我会1)找到一块抹布。2)拿起这块抹布。3)走到衣柜四周。4)完成。
此中场景三的第一步的选择只管语言模子给出了“pick up the sponge”的最好选项,但当呆板人甚么都没有看到时,VF则给这个选项很低的患上分。这申明了SayCan的语言部门可以做出对于在物理世界的推理。同时有趣的是,末了一个动作,“拙笨”的呆板人还有是没有做乐成:它把海绵抹布失到了地上。
更多视频可以参考网站:https://say-can.github.io/
4结论SayCan将利用强化进修的“行”的能力及年夜范围语言模子的“言”的能力联合于一路,凸起了“行胜在言”的暗地里思惟——仅仅发出可能的举动指令是不敷的,还有需要联合外于的周围情况,做可以做到的。不外,文章提出了以下的问题,作为将来的思索标的目的:
1)怎样借鉴交融了真实世界的LLM,来进一步完美语言模子自己,如提高它对于在世界常识的推理能力。
2)更为素质的,合用在人类的天然语言是否真的是用在呆板人编程的本体(ontology)语言?
3)怎样更好地于呆板人范畴交融天然语言理解技能?
可以来到,今朝呆板人的研究已经经逐渐于“软件”算法层面发力了,并且上游的AI算法也很快地运用到这一范畴,期待它的更好成长。
参考链接
https://say-can.github.io/
https://arxiv.org/pdf/2204.01691.pdf

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





