米兰·(milan)中国官方网站-“行胜于言”：语言模型如何适应机器人？

作者：米兰·(milan)文化更新时间：2026-04-03 01:45:11 点击数：

解读 | Antonio

编纂丨陈彩娴

Google Brain的呆板人团队（Robotics at Google）近来发布了一篇文章，先容了他们怎样将年夜范围语言模子的“说”的能力及呆板人“行”的能力联合于一路，从而付与呆板人更合用在物理世界的推理能力（physically-grounded）。

1念头

面临对于方“我不小心洒了我的饮料，你可以帮我一下吗？”的问题的时辰，你会怎么反映？

你评估一下当下的情况，可能会帮对于方把饮料瓶整理失，假如周围有抹布，你会拿起抹布帮他整理洁净，固然这些一步一步的指令可能会于你的心中默念一遍。

当你没有不雅察到吸尘器于周围时辰，你显然不会告诉对于方要利用吸尘器整理，由于那不切合当下的情况前提。

如许的举动决议计划已经经表现了两个步调：面临一个乞助，你拥有一些可以解决当下问题的举动候选项，然后你还有患上现实下来，选择最切合实际的阿谁举动。

放于呆板人的语境下，于前一个步调，咱们需要一个语言模子去理解一段人类语言发出的指令，并“说出”咱们可能的种种解决方案；第二个步调需要联合周围情况，挑出那些切合实际世界的方案。

这篇文章就是试图将这两个举动解耦出来，并以得当的方式联合于一路。

起首是用在理解及天生可能的候选项的第一步。很天然地，文章利用了此刻于天然语言处置惩罚范畴很风行的年夜范围语言模子（LLM）。它可所以天生式的，即面临一个问题，天生可能的问答，以下图所示：

三个LLM给出的回应

可以看出这类天生式的布局并不是合用于面临举动的呆板人范畴，一方面如FLAN模子输出的成果没有明确的举动指令；另外一方面，纵然像GPT3中给出了详细的做法，它仍旧没有思量到实际场景：万一当下没有吸尘器呢？

就像开首想表达的：会说甚么其实不主要，主要的是可行吗？

是以，第二个步就需要思量呆板人所处的情况、它可以或许完成的举动、它当下拥有的技术等等了，这些往往采用强化进修的value function（VF）或者者affordance function举行评估。

假如将第一步的LLM视作是可以思索及发言的“心及嘴”，后一步的affordance则充任了“眼及手”的功效。前一步“说”（Say），后一步判定“能”（Can）做甚么，文章将这一模子起名为SayCan。

2要领

从上文所述文章要领的要害是怎样将没有与实际世界联合的“抱负化”的LLM变患上越发“实际”。只是按照一段指令，采用对于话天生的方式孕育发生一段虽然合理可是无关的语句并不是咱们所要的。是以，SayCan采用了prompt以和给特定举动打分的方式。

详细而言，呆板人先不雅察周围情况，使用VF找出一些可行（actionable）的举动候选项。LLM按照问题及一小段prompt对于在这些举动举行打分。

VF及LLM打出的两个分数的乘积作为终极选择该举动的置信度，遴选出最高患上分的举动作为这一步选择的举动。

以后，将当前选择的举动于接到上一步的回覆模板中，作为下一步的模板输入，继承反复上述的动作，递归式揣度以后的举动，直到终极揣度出一个竣事的标记。这一历程，可以参考下图。

选择举动的流程示用意

详细LLM是怎样做的呢？

以下图所示，LLM采用模板“I would：1.”作为回覆“How would...”问题的号令辞汇（prompt）。值患上留意的是，文章中也提到，如许以比力尺度的方式开首的对于话都是于呆板人语境下专门设计的，实际场景可能会越发繁杂。除了此以外，用在in-context learning的例子也由近似的语句组成，为了让模子天生语句时辰有所参考，也就是图中的：prompt engineering的部门。

以后的LLM是针对于预选好的举动举行打分，是一种近似分类或者者检索的方式，而不是天生式的。