米兰·(milan)中国官方网站-对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

作者：米兰·(milan)文化更新时间：2026-03-10 19:04:55 点击数：

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

对于人类越是简朴的问题，年夜语言模子反而越难以做好？

只管此刻的年夜模子已经经有能力打击数学竞赛级另外标题问题，但于像“9.11及9.9谁年夜”如许的简朴问题上仍旧会翻船。而从推特上彀友对于问题的会商中预测，呈现这类过错的缘故原由多是因为年夜模子以token的方式来理解文字，当9.11被拆成“9”、“.”及“11”三部门时，11确凿比9年夜。

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

年夜语言模子（LLMs）于处置惩罚繁杂问题时体现精彩，但于一些看似简朴的问题上却可能碰到坚苦——这类征象其实不是由于模子自己的繁杂性，而是因为模子与特定情况或者使命之间的常识不合错误齐。此外，LLMs于天生文本时依靠在猜测下一个单词的几率，这类机制可能致使它们天生与人类知识不符的成果。这是由于现有的模子凡是偏重在语言的统计特征，而不是深切理解人类的价值不雅及偏好。

跟着年夜语言模子的能力不停加强，人们对于其可能带来的伦理危害及对于人类的潜于威逼的担心也于增长。LLMs可能会流传其练习数据中的有害信息，如成见、歧视及有害内容。它们还有可能泄露练习数据中的私密及敏感信息，或者天生误导性或者虚伪信息。跟着这些Agent愈来愈多地融入咱们的一样平常糊口，任何未对于齐的举动均可能致使不成预感的后果。

是以，鞭策年夜语言模子对于齐技能的研究及冲破变患上尤为主要。这包括开发新的算法及技能，例如经由过程将强化进修（RL）与年夜型语言模子（LLMs）联合，这也是当前AI研究的热点标的目的之一，这类要领的焦点于在经由过程与情况的交互来不停进修及调解模子的举动，使其更好地顺应人类的直觉及逻辑。

近日，相干论文之一《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》，上线期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）。该论文提出了一个名为TWOSOME的框架，旨于经由过程强化进修（RL）将年夜型语言模子（LLMs）与具身情况（embodied environments）对于齐，以解决决议计划使命。

与OpenAI等公司利用的基在人类反馈的强化进修（RLHF）技能差别，本论文提出了一个新奇的于线框架TWOSOME，利用RL让LLMs作为决议计划代办署理与情况举行有用交互及对于齐，无需预先预备的数据集或者对于情况的先验常识。

从试验成果看，TWOSOME于样本效率及机能方面显著优在传统RL要领PPO及提醒调解要领SayCan，这一成果于Overcooked及VirtualHome情况中获得了验证。此外，TWOSOME还有于八个新的未见使命中测试了其泛化能力，发明其可以或许乐成地将学到的技术转移到差别的使命中。

“要想实现通用人工智能，就不克不及仅仅依靠人类标注数据，而是需要智能体自觉地及情况举行交互。”于谈和强化进修与年夜语言模子联合研究的意义时，安波传授如是说。

借对于该论文的会商，安波传授向雷峰网-AI科技评论分享了对于年夜语言模子部署于动态情况中举行交互的思索，以和该论文的研究历程。

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

论文链接：https://gairdao.com/doi/10.1142/S2972335324500042

论文援用链接：https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500042 area=0000000000000001

“正当才合理”

雷峰网(公家号：雷峰网)-AI科技评论：强化进修与年夜语言模子交融是近一年来的热点研究范畴，您能先容下这一范畴的重要研究标的目的及进展吗？

安波：强化进修与年夜语言模子的联合重要有两个标的目的：基在人类反馈的强化进修（RLHF）及传统强化进修。RLHF经由过程进修人类偏好来对于齐价值不雅，已经经成为年夜型语言模子练习流程中不成或者缺的一部门，是今朝强化进修与年夜语言模子联合的最热点的标的目的。

传统强化进修则依靠情况奖励，让智能体可以或许自觉地于及各类情况不停交互中自立进修计谋。今朝受限在模子能力及情况的适配性，直接将年夜语言模子部署于动态情况中举行交互及计谋晋升的研究较少。TWOSOME框架就是为了试图弥补年夜语言模子与动态情况直接交互的空缺的一次摸索。

AI科技评论：您可否先容TWOSOME框架的设计思惟灵感来历？

安波：咱们留意到，只管此刻的年夜语言模子于通例问答中体现精彩，但决议计划使命上却经常体现欠安。这重要是由于这些模子缺少与情况的对于齐——它们不认识情况中的可履行动作，也不相识情况的动态变化，致使其常常给出一些看似合理实在离题甚远的回覆。

与此同时，强化进修由于进修的是情况中的奖励旌旗灯号，可以或许及情况始终连结对于齐，但其挑战于在怎样有用引入先验常识以辅助摸索。是以，咱们设计了TWOSOME框架，旨于将强化进修与年夜型语言模子相联合，使用强化进修帮忙模子与情况对于齐，同时使用模子的先验常识提高摸索效率。

此外，虽然使用强化进修练习语言模子以进修人类偏好已经经是一个成熟且热点的研究标的目的，但让语言模子直接与情况交互以进修的研究还有相对于缺少。素质上人类的偏好及情况的反馈都是一种奖励信息，用来指引模子更新的标的目的，以是理论上咱们应该可以或许对于RLHF框架举行修改将年夜语言模子直接部署到动态情况中，经由过程于线交互的方式不停晋升年夜语言模子自身的计谋及能力。

AI科技评论：于现有的技能配景下，这项研究解决了哪些要害问题？

安波：这项研究重要是解决了怎样用强化进修让年夜语言模子经由过程与动态情况交互的方式晋升本身能力的问题。这此中又详细细分为：

1）怎样让能力较弱的年夜语言模子可以或许不变输出情况中可履行的正当动作；

2）怎样使用年夜语言模子进修到的海量常识指引智能体于情况中高效摸索；

3）怎样设计一套高效的pipeline让模子按照情况中的奖励旌旗灯号举行参数更新末了找到最优计谋。

AI科技评论：OpenAI的InstructGPT一样也使用了强化进修框架来优化计谋，提高语言模子与人类用意的对于齐度问题，TWOSOME于要领论上有何差别？

安波：InstructGPT采用的是RLHF技能，它起首先经由过程进修人类标注的方式获取一个奖励模子（reward model），然后再使用这个模子的奖励信息去更新语言模子。这个历程凡是需要屡次迭代，先练习reward model再更新模子参数。比拟之下，TWOSOME更看重让年夜模子直接及情况去交互，使用情况中已经有的奖励旌旗灯号，省去了分外练习奖励模子的步调，使患上TWOSOME可以或许举行于线练习。

此外，RLHF重要用在天生使命，其天生的谜底更多存眷优劣而非对于错。而TWOSOME则需要于情况中现实履行动作，这就要求咱们必需确保智能体的动作是正当的。只有先正当，动作才汇合理，是以，TWOSOME不是简朴地让年夜模子经由过程问答问题的方式去天生动作，而是经由过程查询年夜模子中有用动作的天生几率，并以此作为智能体的举动计谋，从而确保每一次交互都是正当的。这类要领提高了智能体与情况互动的有用性及正确性。

更高效、更不变

AI科技评论：TWOSOME于练习架构上有哪些立异的地方？

安波：传统RLHF需要同时维护4个模子，包括Reward Model， Actor Model（举动模子，即年夜模子自己），Critic mode及Reference model，对于显卡显存要求很高。

TWOMSOME创造性地引入LoRA（低秩适配器）更新冻结的年夜模子，使其自己来作为举动模子，同时，于年夜模子的基础上增长全毗连层作为评价模子。这类设计使患上举动模子及评价模子的更新互不滋扰，提高了练习的不变性。更主要的是，整个练习历程中只需要于显存中维护一个年夜模子，显著晋升了内存利用效率，使患上咱们所有的试验均可以于一张40GB显存的A100 GPU上顺遂完成。

AI科技评论：TWOSOME框架经由过程直接与情况交互来加快进修及迭代，您可否谈谈这类要领于现实研究中的运用效果？

安波：TWOSOME框架直接与情况交互并从中进修其实不是为了削减对于年夜范围预练习数据集的依靠，而是于预练习及指令追随练习的基础长进一步优化。强化进修往往是于监视进修到达瓶颈以后帮忙模子冲破上限的要领，许多时辰咱们其实不知道怎样完成使命以和怎样越发高效地完成使命，这就需要经由过程强化进修及情况不停交互的方式去摸索去进修，这凡是需要比监视进修年夜2个数目级以上的数据。

TWOSOME的立异的地方于在，它联合了年夜模子的先验常识，提高了采样效率，使患上模子可以或许更快地收敛。这类要领不是一种简朴的效率晋升，而是一种冲破现有模子机能上限的计谋。与传统的强化进修比拟，TWOSOME经由过程更有用的数据使用，帮忙模子于繁杂使命中实现更快的进修速率及更好的机能体现。

AI科技评论：TWOSOME框架的效率上风可能对于将来AI研究的要领论及事情流程孕育发生哪些影响？

安波：TWOSOME的框架为浩繁计较资源不充实的小型试验室举行强化进修及年夜语言模子相联合的研究提供了可能。于此以前，780M的语言模子需要8X A100 80G才能运行实验举行相干研究。

AI科技评论：可否具体申明TWOSOME框架中的动作提醒规范化要领，以和它怎样晋升计谋的不变性及鲁棒性？

安波：于TWOSOME中，咱们经由过程查询年夜模子来确定情况中有用动作的天生几率，并以此作为智能体的举动计谋。然而，咱们发明直接将动作中每一个token的几率连乘起来作为整个动作的几率，会致使一个较着的问题：动作越长，其结合几率凡是越低。这是由于每一个token的几率都小在1，一些合理的长动作可能会被分歧理地低估，末了的几率不如一些分歧理的短动作。

为相识决这个问题，咱们引入了动作提醒规范化（Action Prompt Normalization）。最初，咱们测验考试了基在token级另外规范化，即使用动作中每一个token几率的几何平均值来计较动作的几率。这类要领虽然减缓了动作长度纷歧致使的几率掉衡问题，但咱们发明它可能会过分正则化由多个token构成的单词。

例如“tomato”由“tom”及“ato ”2个token构成，于当前语境下，ato险些是及tom绑定于一路呈现的，tom后面险些必然是随着ato，假如将它们视为自力，会致使整个tomato以致整个动作的被过分正则化，会过错地提高其几率。

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

（Twosome基在单词级另外规范化要领）

是以，咱们提出了基在单词级另外规范化要领（Word-level Normalization），这类要领将一个单词中所有的token的几率连乘，计较单词层面的几何平均值，而不是token层面的。这不仅防止了过分正则化的问题，还有使患上动作提醒越发合理。与不举行规范化或者仅举行token级别规范化比拟，单词级别规范化于提高计谋不变性及加快收敛方面体现更佳。

“要逾越人类就要及情况交互”

AI科技评论：您怎样对待TWOSOME框架于处置惩罚未见过的使命或者情况时的泛化体现？这类能力怎样影响模子于实际世界运用的潜力？

安波：传统强化进修练习的智能领会过拟合于练习的使命上，很难拥有泛化能力，与年夜语言模子的联合付与其较强的泛化能力一样令咱们惊奇，咱们认为这代表TWOSOME具备较好的可拓展性，可以或许高效地于各类使命及情况中晋升自身的能力。

AI科技评论：思量到TWOSOME框架的泛化能力，您认为将来可能于哪些新的运用标的目的或者范畴患上以运用，它怎样解决这些范畴独有的挑战？

安波：TWOSOME摸索了一种怎样让年夜语言模子及情况交互不停晋升自身能力的要领，同时也是一种怎样为强化进修智能体引入先验信息帮忙摸索的一种要领。

咱们信赖要想实现通用人工智能，仅仅依靠人类标注数据是不敷的，由于那样至多只能到达与人类不异的程度，要想跨越人类程度就需要智能体自觉地及情况举行交互，TWOSOME就是于这个标的目的的一次测验考试及摸索，它同时可以或许帮忙年夜模子于呆板人或者者互联网以和操作体系中及情况交互综合晋升自身的能力，也可以帮忙以往的强化进修智能体于具身智能、AI4Science等标的目的上更高效地摸索，而且有更好的可注释性。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天