米兰·(milan)中国官方网站-Yann LeCun最新发声:自监督+世界模型,让 AI 像人类一样学习与推理

怎样冲破今世人工智能(AI)的瓶颈?差别学者存于差别不雅点。
整体来看可以归纳综合为两类,其一监视进修者,倡导经由过程改善数据标签质量,从而完美监视进修。代表人物有倡议“以数据为中央AI”革命的吴恩达,倡导设计“合成数据自带所有标签”的Rev Lebaredian。
其二,无监视学者,例如Yann LeCun,倡导下一代AI体系将再也不依靠在精心标注的数据集。
近日,Yann LeCun于meta AI(原Facebook)官方博客上以和IEEE采访中,深度论述了他的自监视进修思绪,他认为AI想要冲破此刻的瓶颈,必需让呆板进修世界模子,从而可以或许弥补缺掉的信息,猜测将要发生的工作,并猜测步履的影响。

这虽然不是革命性的设法,但倒是革命性的步履。正如LeCun于于屡次演讲中提到:这场革命将是无监视的(THE REVOLUTION WILL NOT BE SUPERVISED)。详细而言这类革命性表现于对于两个问题的思索:
第一,咱们应该利用甚么样的进修范式来练习世界模子?
第二,世界模子应该利用甚么样的架构?
同时,他也提到:监视进修的局限性有时会被误以为是深度进修的局限性,这些限定可以经由过程自监视进修来降服。
如下是LeCun对于自监视的思索与世界模子设计,内容来历在meta AI与IEEE,AI科技评论做了不转变原意的编译。
1AI可以进修世界模子LeCun提到,人类及动物可以或许经由过程不雅察,简朴的交互,以和无监视的方式进修世界常识,是以可以假定,这内里蕴含的潜于能力组成了知识的基础。这类知识可以或许让人类于生疏的情况下完成使命,例如一名年青的司机,从来没有于雪地里开过车,可是他却知道假如车开的太猛,轮胎会打滑。
早于几十年前,就有学者研究人类、动物甚至智能体系怎样“借力”世界模子,自我进修。是以,当前AI也面对着从头设计进修范式及架构,使呆板可以或许以自我监视的方式进修世界模子,然后利用这些模子举行猜测、推理及计划。
世界模子需要交融差别的学科的不雅点,包括但不限在认知科学、体系神经科学、最优节制、强化进修以和 传统 人工智能。必需将它们与呆板进修的新观点相联合,如自监视进修及结合嵌入架构(joint-embedding architectures)。
2AI新架构:自立智能架构于上述世界模子思惟的基础上,LeCun 提出了自立智能机构,由六个自力模块构成,且假定每一个均可微:可以轻易地计较一些方针函数,以和相对于应的梯度预计,并将梯度信息流传到上游模块。

自立智能的体系架构:配置器(configurator)是焦点,从其他模块获取输入。
配置器的脚色是节制。给定一个要履行的使命,它会经由过程调解参数预先配置感知模块、世界模子,以和计较成本及添加介入者(actor)。
感知模块可以或许吸收信息,预计实际世界。对于在一个特定的使命,只有一小部门感知到的世界状况是相干及有效的。配置器为感知模块提供动力,从感知中提取与使命相干的信息。
世界模子模块是最繁杂的部门,具备两重作用。1.预计感知模块没法获得的缺掉信息;2.合理猜测世界的将来状况,此中包括世界的天然蜕变以和介入者步履的影响。世界模子是实际世界的模仿器,因为世界布满了不确定性,该模子必需可以或许处置惩罚多种可能的猜测。直不雅的例子是:一个靠近十字路口的司机可能会放慢汽车行驶的速率,避免另外一辆靠近十字路口的车没有按端方停于泊车标记上。
成本模块用来计较猜测智能体(agent)的分歧适水平。由两部门构成:内涵成本( intrinsic cost),特性是不成练习,但能及时计较“不适”:智能体侵害、违背硬编码举动等;评价者(critic),它是一个可练习的模块,猜测内涵成本的将来值。
LeCun暗示:成本模块是基本的举动驱动及内涵念头的地点。是以,它将思量到内涵成本:不华侈能源,以和使命的详细耗损。成本模块是可分的,成本的梯度可以经由过程其他模块反向流传,用在计划、推理或者进修。
介入者模块提供步履建议。介入者模块可以找到一个使预计的将来成本最小化的最好步履序列,并于最好序列中输出第一个步履,其方式近似在经典的最优节制。短时间影象模块可以记载当前环境,猜测世界状况,以和相干成本。
3世界模子架谈判自监视练习世界模子架构的焦点于在猜测。
构建世界模子的一个要害挑战是怎样使该模子可以或许暗示多个恍惚的猜测。实际世界其实不是彻底可以猜测的:一个特定的环境可能有多种蜕变的方式,而且很多与环境相干的细节与手头的使命无关。好比,我可能需要猜测我开车时周围的汽车会做甚么,但我不需要猜测门路四周树木中个体叶子的具体位置。那末,世界模子怎样进修实际世界的抽象暗示,做到保留主要的细节、纰漏不相干的细节,而且可以于抽象暗示的空间中举行猜测呢?
解决方案的一个要害要素是结合嵌入猜测架构 (Joint Embedding Predictive Architecture ,JEPA)。JEPA 捕捉两个输入(x 及 y)之间的依存瓜葛。例如,x 可所以一段视频,y 可所以视频的下一段。输入 x 及 y 被馈送到可练习的编码器,这些编码器提取它们的抽象暗示,即 sx 及 sy。猜测器模块被练习为从 sx 猜测 sy。猜测器可使用潜于变量 z 来暗示 sy 中存于但 sx 中不存于的信息。JEPA 以两种方式处置惩罚猜测中的不确定性:(1)编码器可能会选择抛弃难以猜测的有关 y 的信息;(2)当潜于变量 z 于一个调集上变化时,将致使猜测于一个调集上变化一组貌同实异的猜测。
那末,咱们怎样练习 JEPA 呢?
截至今朝为止,研究者所利用的独一要领就是“对于比”,包括显示兼容 x 及 y 的示例,以和很多 x 及不兼容 y 的示例。可是当暗示是高维状况时,这是相称不切现实的。
已往两年还有呈现了另外一种练习计谋:正则化要领。当运用在 JEPA 练习时,该要领利用了四个尺度:
使 x 的暗示最年夜限度地提供关在 x 的信息
使 y 的暗示最年夜限度地提供关在 y 的信息
使 y 的暗示可以从 x 的暗示中最年夜水平地猜测
使猜测器利用尽可能少的潜于变量信息来暗示猜测中的不确定性
这些尺度可以以各类方式转化为可微的成本函数。一种要领是 VICReg 要领,即方差/变量(Variance)、稳定性(Invariance)、协方差正则化(Covariance Regularization)。于 VICReg 中,x 及 y 暗示的信息内容经由过程将其份量的方差连结于阈值之上并经由过程使这些份量尽可能地彼此自力来最年夜化。同时,该模子试图使 y 的暗示可以从 x 的暗示中猜测。此外,潜变量的信息内容经由过程使其离散、低维、稀少或者噪声来最小化。

JEPA 的美妙的地方于在它天然地孕育发生了输入的信息抽象暗示,消弭了不相干的细节,而且可以履行猜测。这使患上 JEPA 可以彼此重叠,以便进修具备更高抽象级另外暗示,可以举行持久猜测。
例如,一个场景可以于高条理上描写为“厨师正于建造可丽饼”。它可以猜测厨师会去取面粉、牛奶及鸡蛋,将食材混淆,把面糊舀进锅里,将面糊油炸,并翻转可丽饼,然后不停反复该历程。于较低条理的表达上,这个场景多是倒一勺面糊并舀匀称,且将其铺于锅周围。一直连续到每一一毫秒的厨师的手的切确轨迹。于低条理的手部轨迹上,咱们的世界模子只能举行短时间的正确猜测。但于更高的抽象条理上,它可以做出持久的猜测。

分层 JEPA 可用在于多个抽象级别及多个时间标准上履行猜测。练习方式重要是经由过程被动不雅察,很少经由过程互动。
婴儿于出生后的头几个月重要经由过程不雅察来相识世界是怎样运作的。她相识到世界是三维的,知道有些物领会摆于其他物体的前面,当一个物体被遮挡时,它仍旧存于。终极,于约莫 9 个月年夜的时辰,婴儿学会了直不雅的物理学——例如,不受支撑的物领会因重力而落下。
分层 JEPA 的愿景于在它可以经由过程不雅看视频及与情况交互来相识世界是怎样运作的。经由过程练习本身来猜测视频中会发生甚么,它可以天生对于世界的分层暗示。经由过程于世界上采纳步履并不雅察成果,世界模子将学会猜测其步履的后果,进而可以或许推理及规划。
4“感知-步履”情节经由过程将分层 JEPA 练习为世界模子,一个智能体(呆板人)就能够履行繁杂动作的分层计划,将繁杂使命分化为一系列不太繁杂及不太抽象的子使命,一直到对于效应器(effector)的初级动作。

一个典型的感知-步履情节如上。该图申明了两级条理布局的环境。感知模块提取世界状况的分层暗示(图中 s1[0]=Enc1(x) 及 s2[0]=Enc2(s[0]))。然后,于假定二级步履器提出的一系列抽象动作的环境下,屡次运用二级猜测器来猜测将来状况。步履器优化二级动作序列以将总成本最小化(图中的C(s2 [4]))。
这个历程近似在最优节制中的模子猜测节制。对于第二级潜于变量的多个画图反复该历程,这可能会孕育发生差别的高级场景。由此孕育发生的高级动作其实不组成真实的动作,而只是界说了初级状况序列必需满意的约束(例如,食材是否准确混淆?)。它们确凿组成了子方针。整个历程于低层反复:运行低层猜测器,优化低层动作序列以将上层的中间成本最小化,并对于低层潜于变量的多个画图反复该历程。一旦该历程完成,智能体将第一个初级动作输出到效应器,整个情节可以反复。
假如咱们乐成构建了一个如许的模子,那末所有的模块都是可微的,是以整个动作优化历程可使用基在梯度的要领来履行。
5使 AI 更靠近人类程度的智能LeCun 的愿景需要更深切的摸索,并且前方还有有很多艰难的挑战。此中最有趣又最坚苦的一项挑战是为世界模子将架谈判练习细节实例化。咱们甚至可以说,练习世界模子是将来几十年人工智能可以真正取患上进展的重要挑战。
可是架构的很多其他方面仍有待界说,包括怎样切确地练习Critic(Critic收集的作用是权衡一个Actor于某状况下的好坏),怎样构建及练习配置器,以和怎样利用短时间影象来跟踪世界状况及存储世界状况与步履的汗青,用内涵成原来调解Critic。
LeCun 及其他 Meta AI 的研究职员期待于将来数月及数年内摸索这些内容,并与该范畴的其别人交流设法及进修。创造可以像人类同样有用地进修及理解的呆板是一项持久的科学努力——并且不克不及包管乐成。但咱们信赖,基础研究将继承加深对于思惟及呆板的理解,并将带来更多造福人类的人工智能冲破结果。
6Yann LeCun:AI 不需要人类的监视IEEE Spectrum:您曾经说过,监视进修的局限性有时会被误认为是深度进修的内涵局限,那哪些限定可以经由过程自监视进修来降服呢?
Yann LeCun:监视进修于一些布局不变的范畴中体现很精彩。于这些范畴中,你可以网络年夜量的标志数据,而且于部署历程中可以看到,这些输入类型与练习历程中利用的输入类型没有太年夜区分。要网络年夜量且相对于没有误差的标志数据是很难的。我所说的纷歧定是社会误差,而是说体系不该该利用数据中的相干性。一个很是闻名的例子是,当你于练习一个可以或许辨认奶牛的体系时,若练习顶用的都是草场上的奶牛,那末体系将把草作为奶牛的配景。假如再给它一头于海滩上的奶牛,它可能就很难辨认出了。
自监视进修 (SSL) 答应咱们练习体系以自力在使命的方式进修优良的输入暗示。由于 SSL 练习利用未标志的数据,以是咱们可使用很是年夜的练习集,并让体系进修更稳健及更完备的输入暗示。然后,它只需要极少量的标志数据就能于监视使命上得到优良的机能。这年夜年夜削减了纯监视进修所独有的标志数据量,并使体系越发稳健,可以或许更好地处置惩罚与标志练习样本差别的输入。它有时还有会降低体系对于数据误差的敏感性——关在这一改良,咱们将于将来几周内分享更多关在研究的看法。
此刻于现实的 AI 体系中正于发生的工作是,咱们正于转向利用 SSL 对于年夜量未标志数据举行预练习的更年夜架构。这些可用在各类使命。例如,Meta AI 此刻拥有可以处置惩罚几百种语言的语言翻译体系。这是一个单一的神经收集!咱们还有有多语种语音辨认体系。这些体系可以处置惩罚险些没有数据的语言,更不消说带解释的数据了。
IEEE Spectrum:其他行业前驱说,人工智能的进步标的目的是经由过程更好的数据标志来改良监视进修。吴恩达近来及我谈到了以数据为中央的AI,英伟达 的 Rev Lebaredian 及我谈到了带有所有标签的合成数据。该范畴是否存于关在进步门路的不合?
LeCun:我不认为存于哲学上的不合。SSL 预练习是 NLP 中很是尺度的做法。它于语音辨认方面体现出了精彩的机能改良,而且于视觉方面最先变患上愈来愈有效。然而,“经典”监视进修仍有很多未开发的运用,是以人们固然应该尽可能利用合成数据及监视进修。听说英伟达也正于踊跃开发 SSL。
早于 2000 年月中期,Geoff Hinton、Yoshua Bengio 及我就确信,咱们可以或许练习很是年夜及很是深的神经收集的独一要领是经由过程自监视(或者无监视)进修。这也是吴恩达最先对于深度进修感兴致的时辰。他其时的事情也集中于咱们此刻称之为自监视的要领上。
IEEE Spectrum:自监视进修怎样促进具备知识的 AI 体系?知识能把 AI 体系带向人类程度的智能多远?
LeCun:我认为,一旦咱们搞清晰怎样让呆板像人类及动物同样进修世界是怎样运作的,人工智能就会取患上庞大进展:这重要是经由过程不雅察,并于不雅察中采纳步履。咱们相识世界是怎样运作的,由于咱们已经经相识了世界的内部模子,该模子使咱们可以或许弥补缺掉的信息,猜测将要发生的工作,并猜测咱们步履的影响。咱们的世界模子使咱们可以或许感知、注释、推理、提早规划及步履。
但呆板怎样进修世界模子呢?这归结为两个问题:咱们应该利用甚么进修范式来练习世界模子?世界模子应该利用甚么架构?
对于在第一个问题,我的谜底是 SSL(自监视进修)。一个例子是让呆板不雅看视频,暂停视频,然后让呆板进修视频中接下来会发生甚么的暗示。于如许做的历程中,呆板可以进修年夜量关在世界怎样运作的配景常识,可能近似在婴儿及动物于生命的最初几周及几个月内的进修方式。
对于在第二个问题,我的谜底是一种新型的深度宏架构,我称之为分层结合嵌入猜测架构(H-JEPA)。简朴注释,JEPA 不是猜测视频剪辑的将来帧,而是进修视频剪辑的抽象暗示及剪辑的将来,以便后者可以或许基在对于前者的理解很轻易地猜测。这可使用非对于比 SSL 要领的一些最新成长来实现,尤其是我及我的同事近来提出的一种称为“VICReg”的要领。


IEEE Spectrum:几周前,你答复了于OpenAI任职的 Ilya Sutskever 的一条推文,他于推文中推测,今天的年夜型神经收集可能成心识。你的回覆是清脆的“不”。于您看来,构建一个成心识的神经收集需要甚么?阿谁体系会是甚么样子的?
LeCun:起首,意识是一个很是恍惚的观点。一些哲学家、神经科学家及认知科学家认为这只是一种幻觉,我很是靠近这类不雅点。
但我对于致使意识错觉的缘故原由有一个预测。我的假定是,咱们的前额叶皮质中有一个单一的世界模子“引擎”。该世界模子可按照当前环境举行配置。咱们是风帆的梢公;咱们的世界模子模仿了咱们船周围的空气及水流。咱们建了一张木桌;咱们的世界模子想象切割木头及组装它们的成果,等等。
咱们的年夜脑中需要一个模块,我称之为“配置器”,它为咱们设定方针及子方针,配置咱们的世界模子来模仿当前的环境,并启动咱们的感知体系以提取相干信息并抛弃赘余信息。监视配置器的存于多是让咱们孕育发生意识错觉的缘故原由。但有趣的是:咱们需要这个配置器,由于咱们只有一个世界模子引擎。假如咱们的年夜脑充足年夜,可以容纳很多世界模子,咱们就不需要意识。以是,从这个意义上说,意识是咱们年夜脑局限的成果!
IEEE Spectrum:自监视进修于元宇宙的构建中可以饰演甚么脚色?
LeCun:深度进修于虚拟世界中有许多详细的运用,好比 VR 护目镜及 AR 眼镜的运动跟踪,捕获及从头合成身体运动及脸部心情等等。
元宇宙中人工智能驱动的新创意东西有许多时机,可让每一个人于虚拟世界及实际世界中创造新事物。但元宇宙也有一个“纯AI”的运用:虚拟 AI 助手。咱们应该有虚拟的 AI 助手,可以于一样平常糊口中帮忙咱们,回覆咱们的任何问题,并帮忙咱们处置惩罚天天轰炸咱们的海量信息。为此,咱们需要咱们的 AI 体系对于世界怎样运作(不管是物理还有是虚拟)有必然的相识,有必然的推理及规划能力,以和必然水平的知识。简而言之,咱们需要搞清晰怎样构建可以像人类同样进修的自立 AI 体系。这需要时间。可是Meta于这条赛道上已经经走了很永劫间。
参考链接:1.https://ai.facebook.com/blog/yann-lecun-advances-in-ai-research2.https://spectrum.ieee.org/yann-lecun-ai
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





