米兰·(milan)中国官方网站-IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

作者：米兰·(milan)文化更新时间：2026-03-17 22:16:33 点击数：

IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

作者 | 李梅

编纂 | 陈彩娴

于如今数据驱动的人工智能研究中，单一模态数据所提供的信息已经经不克不及满意晋升呆板认知能力的需求。与人类使用视觉、听觉、嗅觉、触觉等多种感官信息来感知世界近似，呆板也需要模仿人类联觉来晋升认知程度。

同时，跟着多模态时空数据的发作及计较能力的晋升，研究者已经经提出了年夜量要领以应答日趋增加的多样化需求。但当前的多模态认知计较仍局限在人类表不雅能力的模拟，缺少认知层面的理论依据。面临越发繁杂的智能使命，认知科学与计较科学的交织已经成一定。

近日，西北工业年夜学的李学龙传授于《中国科学：信息科学》期刊上发表了《多模态认知计较》一文，以“信容”（Information Capacity）为依据，成立了认知历程的信息通报模子，提出了“多模态认知计较可以或许提高呆板的信息提取能力”这一不雅点，从理论上对于多模态认知计较各项使命举行了同一。

李学龙认为，多模态认知计较是实现通用人工智能的要害之一，于”临地安防”（Vicinagearth Security）等范畴有广漠的运用远景。本文摸索了人类及呆板的同一认知模式，对于鞭策多模态认知计较的研究带来开导。

IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

援用格局：Xuelong Li, “Multi-Modal Cognitive Computing,” SCIENTIA SINICA Informationis, DOI: 10.1360/SSI-2022-0226

李学龙是西北工业年夜学传授，存眷高维数据的智能获取、处置惩罚及治理之间的瓜葛，于“临地安防”（Vicinagearth Security）等运用体系中阐扬作用。2011年入选IEEE Fellow，并是首位被选国际人工智能协会（AAAI）执委果年夜陆学者。

AI 科技评论对于《多模态认知计较》一文的要点作了归纳综合，并沿该标的目的与李学龙传授举行了一次深切对于话。

—— 1 ——呆板认知能力于在信息使用率

基在信息论，李学龙提出：多模态认知计较可以或许提高呆板的信息提取能力，并从理论上对于这一不雅点举行了建模（以下）。

起首，咱们需要大白人类是如何提取事务信息的。

1948 年，信息论开创人 Shannon 提出“信息熵”的观点来暗示随机变量的不确定水平，事务的几率越小，其发生所提供的的信息量越年夜。也就是说，于一个给定的认知使命 T 中，事务 x 的发生所带来的信息量与事务的几率 p(x) 成反比：

IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

而信息因此各类模态为载体举行传输的，假定事务空间 X 为感知模态（m）、空间（s）、时间（t）上的张量，那末个别从事务空间中得到的信息量可界说为：

IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

人类于某一时空规模内的是留意力有限的（假定为 1），以是其时空事务从单模态改变为多模态时，人类就不需要不停调解留意力，将存眷点放于未知事务信息上，以获取最年夜量的信息：

IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

由此可知，其时空事务包罗的模态越多，个别获取的信息量也就越年夜，认知程度也随之更高。

那末对于在呆板而言，是否获取到的信息量越年夜，呆板就越靠近人类的认知程度？

谜底是并不是云云。为了器量呆板的认知能力，李学龙于“信容”理论的基础上，将呆板从事务空间中提守信息的历程暗示以下。此中，D 为事务空间 x 的数据量。

IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

由此，呆板的认知能力便可界说为从单元数据获取最年夜信息量的能力，如许一来，人类与呆板的认知进修便同一为提高信息使用率的历程。

那末，怎样晋升呆板对于多模态数据的使用率进而晋升多模态认知计较能力呢？

正如人类的认知晋升离不开对于实际世界的遐想、推理、归纳与演绎，要想晋升呆板认知能力，也需从对于应的三方面切入：联系关系、天生、协同，这也是如今多模态阐发的三个基本使命。

—— 2 ——

多模态认知计较的三条主线

多模态联系关系、跨模态天生及多模态协同三个使命处置惩罚多模态数据的偏重点差别，但其焦点都是要使用尽可能少的数据实现信息量的最年夜化。

多模态联系关系

源自差别模态的内容怎样于空间、时间及语义层级上联系关系对于应起来？这是多模态联系关系使命的方针，也是提高信息使用率的条件。

多模态信息于空间、时间及语义层面上的对于齐是跨模态感知的基础，多模态检索则是感知于现实糊口中的运用，好比依赖多媒体搜刮技能，咱们可以输入辞汇短语来检索视频片断。

IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键图注：多模态对于齐示用意

受人类跨感官感知机制的开导，AI 研究者已经经将可计较模子用在唇读、缺掉模态天生等跨模态感知使命傍边，

还有进一步辅助残障群体的跨模态感知。而于未来，跨模态感知的重要运用场景将再也不局限在残障人士的感知替换运用上，而是将更多的同人类的跨感官感知相联合，晋升人类多感官感知程度。

如今，数字模态内容快速增加，跨模态检索的运用需求也愈加富厚，这无疑为多模态联系关系进修提出了新的机缘及挑战。

跨模态天生

咱们于浏览一段小说情节时，脑海中会天然浮现响应的画面，这是人类跨模态推理及天生能力的表现。

与之近似，于多模态认知计较中，跨模态天生使命的方针是付与呆板天生未知模态实体的能力。从信息论的角度看，这一使命的素质就成为了于多模态信息通道内提高呆板认知能力的问题，这有两种路子：一是提高信息量即跨模态合成，二是减小数据量即跨模态转换。

跨模态合成使命是于天生新模态实体时对于已经有信息举行富厚，从而增年夜信息量。以基在文本天生图象为例，初期重要采用实体联系关系的方式，对于检索库的依靠水平往往很高。如今，图象天生技能以天生匹敌收集为主，已经经可以或许天生传神的高质量图象。但人脸图象天生仍旧十分具备挑战性，由于从信息条理上看，纵然是微小的心情变化，也有可能转达出很是年夜的信息量。

同时，将繁杂模态转换到简朴模态，寻觅越发简便的表达情势，则可以降低数据量，晋升信息获取能力。

IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键图注：常见的跨模态转换使命

作为计较机视觉及天然语言处置惩罚两年夜技能联合的范例，跨模态转换可以极年夜地晋升于线检索效率。好比对于一段冗长的视频给出扼要的天然语言描写，或者者给一段视频信息天生与之相干的音频旌旗灯号灯。

今朝主流的两种天生式模子 VAE（变分自编码器）及 GAN （天生匹敌收集）各有是非，李学龙认为，VAE 依靠假定前提，而 GAN 可注释性差，两者需合理联合。特别主要的一点是，多模态天生使命的挑战不仅于在天生质量方面，更多于在差别模态之间的语义和暗示鸿沟问题，怎样于具备语义鸿沟的条件下举行常识推理是将来需要解决的难点。

多模态协同

于人类认知机制中，归纳及演绎饰演着主要脚色，咱们可以对于看到的、听到的、闻到的、摸到的等多模态感知举行归纳交融、结合演绎，以此来作为决议计划依据。

一样地，多模态认知计较也要求协调两个或者两个以上的模态数据，互相共同完成越发繁杂的多模态使命，并晋升精度及泛化能力。从信息论的角度看，它的素质是多模态信息之间的彼此交融以到达信息互补的目的，是对于留意力的优化。

起首，模态交融是为相识决数据格局、时空对于齐、噪声滋扰等带来的多模态数据的差异问题。今朝，机缘法则的交融方式包括串行交融、并行交融及加权交融，基在进修的交融方式则包括留意力机制模子、迁徙进修及常识蒸馏。

其次，多模态信息交融完成后就需要对于模态信息举行结合进修，以帮忙模子挖掘模态数据间的瓜葛，成立起模态与模态间的辅助或者互补接洽。

经由过程结合进修，一方面可以或许晋升模态机能，如视觉引导音频、音频引导视觉、深度引导视觉等运用；另外一方面可以解决以往单模态难以实现的使命，如繁杂感情计较、音频匹配人脸建模、视听觉引导音乐天生等都是将来多模态认知计较的成长标的目的。

—— 3 ——

机缘与挑战

最近几年来，深度进修技能已经经极年夜地鞭策了多模态认知计较于理论及工程上的成长。但如今运用需求愈加多元化，数据迭代速率也于加速，这为多模态认知计较提出了新的挑战，也带来了很多机缘。

咱们可以从晋升呆板认知能力的四个层面来看：

于数据层面，传统的多模态研究将数据的收罗及计较分散为两个自力历程，这类方式存于毛病。人类世界由持续模仿旌旗灯号组成，而呆板处置惩罚的是离散数字旌旗灯号，其转换历程一定造成信息变形及丢掉。

对于此，李学龙认为，以光神经收集为代表的智能光电可以或许带来解决思绪，假如能完成多模态数据的感算一体，呆板的信息处置惩罚效率及智能程度将年夜年夜提高。

于信息层面，认知计较的要害是对于信息中高级语义的处置惩罚，好比视觉中的位置瓜葛、图象的气势派头、音乐的感情等。今朝多模态使命局限在简朴方针及场景下的交互，而没法理解深层的逻辑语义或者主不雅语义。例如，呆板可以天生一朵花开于草地上的图象，但没法理解花卉会于冬天凋落的知识。

以是，搭建差别模态下繁杂逻辑及感触感染语义信息的通讯桥梁，成立特点的呆板器量系统是将来多模态认知计较的一年夜趋向。

于交融机制层面，怎样对于由异构部件构成的多模态模子举行高质量优化是当前的一个难点。今朝的多模态认知计较年夜可能是于同一的进修方针下对于模子举行优化，这类优化计谋缺少对于模子内部异构构成部门的针对于性调解，致使现有的多模态模子存于较年夜的欠优化问题，需要从多模态呆板进修与优化理论要领等多方面切入。

于使命层面，呆板的认知进修方式随使命而差别，咱们需要设计使命反馈的进修计谋，晋升多种相干使命的解决能力。

别的，针对于当前呆板进修从图象、文本等数据中理解世界这类“傍观式”进修方式的毛病，咱们可以借鉴认知科学的研究结果，如具身智能（Embodied AI）就是一个有潜力的解决方案：智能体需要与情况举行多模态交互，才能不停进化形成解决繁杂使命的能力。（公家号：雷峰网）

—— 4——

对于话李学龙

AI 科技评论：于人工智能研究中，咱们为何要存眷多模态数据及多模态认知计较？多模态数据的增加为模子的机能带来了甚么利益及拦阻？

李学龙：谢谢您的问题。咱们之以是存眷及研究多模态数据，一方面是因为人工智能素质上是依靠数据的，单一模态数据能提供的信息老是很是有限的，而多模态数据于统一使命下可以提供多条理、多视角的信息；另外一方面则是由于客不雅的物理世界就是多模态的，许多现实问题的研究离不开多模态数据，例如以文搜图，听音识物等等。

咱们从认知计较的角度来阐发多模态问题，是从人工智能的素质出发，经由过程构建可模仿人类认知模式的多模态阐发体系，但愿呆板像人类同样智能地感知周围情况。

繁杂交错的多模态信息也会带来年夜量噪声及冗余，增长模子进修压力，使患上某些环境下多模态数据的机能反而不如单一模态，这就为模子的设计及优化提出了更年夜的挑战。

AI 科技评论：从信息论的角度看，人类的认知进修与呆板的认知进修有何相似的地方？关在人类认知机制的研究对于在多模态认知计较有如何的引导意义？假如缺少对于人类认知的相识，多模态认知计较将面对哪些坚苦？

李学龙：亚里士多德认为人对于事物的熟悉是从觉得最先的，而柏拉图则认为经由过程觉得患上出的不克不及称为常识。

人类从出生最先就接管年夜量的外界信息，经由过程感知、影象、推理等慢慢成立自我认知体系，而呆板的进修能力是经由过程对于年夜量数据的练习来实现的，重要是于找感知及人类常识之间的对于应瓜葛。根据柏拉图的不雅点，呆板学到的还有不是常识。咱们于文中援用了“信容”（Information Capacity）的理论，测验考试从信息提取能力入手，去成立人及呆板之间的认知接洽。

人类经由过程视、听、嗅、味、触等多种感知通道将多模态信息传送至年夜脑，对于年夜脑皮层孕育发生结合刺激。生理学研究发明，多种感官结合作用会孕育发生“多感官整合”、“联觉”（Synaesthesia）、“知觉重组”、“知觉影象”等认知进修模式，这些人类认知机制为多模态认知计较带来了庞大的开导，例如派生出了多模态协同、多模态联系关系、跨模态天生等典型多模态阐发使命，同时也催生了局部同享、是非时影象、留意力机制等典型呆板阐发机制。

今朝来讲，人的认知机理实在其实不明确。缺少人类认知研究的引导，多模态认知计较会堕入数据拟合的陷阱，咱们也没法判定模子是否学到了人需要的常识，这也是人工智能今朝饱受争议的一点。

AI 科技评论：您从信息论角度提出的“多模态认知计较可以或许提高呆板的信息提取能力”这一不雅点，于详细的多模态认知计较使命中有何证据撑持？

李学龙：这个问题可以从两个方面往返答。第一，多模态信息可以晋升单一模态于差别使命中的体现。年夜量的事情已经经验证了，于插手声音信息时，计较机视觉算法的机能会获得显著晋升，像方针辨认、场景理解等。咱们还有做过一个情况相机，发明经由过程交融温度、湿度等传感器的多模态信息，可以晋升相机的成像质量。

第二，多模态信息的结合建模为实现越发繁杂的智能使命提供了可能，好比，咱们曾经做过“Listen to the Image”的事情，将视觉信息编码为声音，让瞽者“看到”面前的情形，这也证实了多模态认知计较帮忙呆板提取更多的信息。

AI 科技评论：于多模态联系关系使命中，对于齐、感知与检索三者之间有甚么样的彼此接洽?

李学龙：这三者的瓜葛素质上来说是相对于比力繁杂的，于本篇文章中，我仅给出了一些本身的开端见解。差别模态信息孕育发生联系关系的条件是它们于配合描写统一个/相似的客不雅存于，可是这类联系关系瓜葛却于外界信息烦复或者滋扰时存于较难确定的问题，这就需要举行起首对于齐差别模态的信息，确定联系关系对于应瓜葛。进而于对于齐基础上，实现从一个模态到另外一个模态的感知。

这就比如当咱们仅看到一小我私家的唇部运动，能恍如听到他说的内容。而这类征象的孕育发生也是成立于视素（Viseme）及音素（Phoneme）联系关系对于齐的基础上。于现实糊口中，咱们也将这类跨模态的感知进一步应用到了诸如检索如许的运用中，经由过程文字检索商品的图片或者视频内容，实现可计较的多模态联系关系运用。

AI 科技评论：近来很是风行的 DALL-E 等模子是跨模态天生使命的一个例子，它们于文本天生图象使命中体现精彩，但其天生图象的语义相干性、可注释性等仍存于很年夜局限。您认为该当怎样解决这个问题？难点于哪？

李学龙：从文本天生图象是一个“想象”的使命，人们看到或者听到一句话，理解此中的语义信息，然后依托年夜脑影象想象出最切合的场景，孕育发生“画面感”。今朝，DALL-E 还有处在使用统计进修举行数据拟合的阶段，对于年夜范围数据集举行归纳及总结，这也是今朝深度进修最擅长的。

可是，假如真正要进修人的“想象力”，还有需要思量人类的认知模式，到达“高程度”的智能。这就需要神经科学、生理学、信息科学的交织交融，是挑战也是机缘，最近几年来许多团队也于这方面做出了顶尖的事情。经由过程多学科的交织交融，摸索人类认知模式的可计较性理论，也是咱们团队努力的标的目的之一，信赖也将为“高程度”的智能带来新的冲破。

AI 科技评论：于您的研究事情中，您是怎样从认知科学中罗致灵感的？您特别存眷认知科学中的哪些研究？

李学龙：问渠那患上清这样？为有源头活水来。我常常从一样平常糊口中不雅察及思索一些有趣的征象。

于20年前，我阅读到一个网页，上面是江南山川图片，当我再点开网页上的音乐之后，忽然有一种身临其境的觉得，这时候候我就最先从认知的角度思索听觉及视觉之间的瓜葛。于进修认知科学的历程中，我相识到“联觉”（Synaesthesia）这类征象，联合我自身的科研标的目的，完成为了一篇题为“Visual Music and Musical Vision”的文章，这也是第一次将“联觉”引入信息范畴。

厥后，我开设了信息范畴第一门认知计较课程，也创立了IEEE SMC的认知计较技能委员会，测验考试打破认知科学及计较科学的界限，其时也给认知计较下了界说，也就是今朝技能委员会主页上的描写。2002年，我提出了单元数据量的信息量提供能力，也就是“信容”（Information Capacity）的观点，测验考试对于呆板的认知能力举行器量，也很侥幸地于2020年以“多模态认知计较”为题得到了腾讯科学摸索奖。

到此刻，我也连续存眷着联觉及知觉方面的最新进展。于天然界中，也存于许多人类五感以外的模态，甚至也存于今朝尚不清晰的潜于模态，好比量子纠缠就可能申明了咱们糊口的三维空间只是高维空间的投影，假如确凿是如许，那咱们的探测手腕也是局限的。也许可以挖掘使用这些潜于模态，让呆板靠近甚至逾越人的感知能力。

AI 科技评论：于怎样将人类认知与人工智能更好联合的问题上，您提出构建以“元模态”（Meta-Modal）为焦点的模态交互收集，可否先容一下该不雅点？其理论基础是甚么？

李学龙：元模态自己是一个源自认知神经科学范畴的观点，它是指年夜脑具有如许一类构造，它于履行某种功效或者表征操作时，对于输入信息的感官种别不作详细假定，但仍旧可以或许具有较好的履行体现。

元模态并不是是一类突发奇想的观点，它素质上是认知科学家对于跨模态感知、神经元可塑性等征象及机理整合后的假定与料想。它也开导咱们去组织差别模态间的高效进修架构与要领，实现越发泛化的模态表征能力。

AI 科技评论：多模态认知计较于真实世界重要有哪些运用？举例申明。

李学龙：多模态认知计较是一项很是切近现实运用的研究。咱们团队以前有一项跨模态感知的事情，把视觉信息编码成声音旌旗灯号，刺激年夜脑皮层的低级视皮质，已经经于助残助障中开展了运用，帮忙瞽者看到外界事物。于一样平常糊口中，咱们也会常常用到多模态认知计较的技能，好比短视频平台就会综合语音、图象及文本标签，去为用户保举可能感兴致的视频。

更广泛地，多模态认知计较于文章提到的临地安防中也有广泛的运用，好比智能搜救，无人机及地面呆板人收罗到声音、图象、温度、湿度等各类数据，需要从认知的角度对于这些数据举行整合阐发，按照现场环境履行差别的搜救计谋。近似的运用还有有许多，好比智能巡检、跨域遥感等等。

AI 科技评论：您于文章中提到，今朝多模态使命都局限在简朴方针及场景下的交互，一旦触及到更为深层的逻辑语义或者主不雅语义就举步维艰。那末，这是不是符号主义人工智能中兴的一个契机？于提高呆板处置惩罚高级语义信息的能力方面，还有有哪些可行方案？

李学龙：罗素认为，常识的年夜部门价值于在它的不确定性。常识的进修是需要有温度的，是可以或许及外界交互与反馈的。当前咱们所看到的年夜部门研究属在单模态的、被动的、面向给定命据的研究，可以满意一些简朴方针及场景下的研究需求。但对于在更为深层的逻辑语义或者主不雅语义，需要对于时空多维度下的、更多模态撑持的、可自动交互的情境予以充实地摸索及挖掘。

为了实现这一方针，研究手腕与方式要领可能可以更多地借鉴认知科学，例如，一些研究者将认知科学中的“具身体验”假说引入到人工智能范畴，探究呆板于同外界自动交互、多种模态信息输入情境下新的进修问题与使命，并获得了一些可喜的成果。这也揭示出多模态认知计较于联络人工智能与认知科学的纽带作用及踊跃意义。

AI 科技评论：智能光电也是您的研究标的目的之一，您于文章中提到，智能光电可以或许为信息的数字化带来摸索性的解决思绪。于多模态数据的感知及计较方面，智能光电可以或许做哪些事情？

李学龙：光旌旗灯号及电旌旗灯号是人们熟悉世界的重要方式，人类天天吸收信息的年夜部门来自在视觉，再深切一步，视觉信息重要来自在光。人类视听嗅味触的五种感官也是将光芒、声波、压力、气息、刺激等差别觉得转化为电旌旗灯号举行高条理认知。以是光电是人类感知世界的重要信息来历。最近几年来，借助各类进步前辈的光电装备，咱们感知到了可见光及可闻声波之外更多的信息。

可以说光电装备是人类感知世界的最前端。咱们从事的智能光电研究，致力在摸索光电感知硬件与智能算法的一体化，将物理先验引入算法设计历程，使用算法成果引导硬件设计，形成“感”及“算”的互相反馈，拓展感知界限，到达模拟甚至逾越人的多模态感知的目的。

AI 科技评论：于多模态认知计较标的目的，您今朝于做哪些研究事情？您将来的研究方针是甚么？

李学龙：感激发问。我今朝重要存眷临地安防（Vicinagearth Security）中的多模态认知计较。传统意义上的安防凡是是指都会安防。于当下，人类的勾当空间已经经扩大到了低空、地面及水下，咱们需要去成立临地空间中的立体化安全防卫系统，来履行跨域探测、自立无人体系等一系列现实使命。

临地安防面对的一个很年夜的问题，是怎样智能化地处置惩罚差别传感器孕育发生的年夜量多模态数据，好比让呆板从人的角度去理解无人机及地面监控装备同时不雅测到的方针。这就触及到多模态认知计较，以和多模态认知计较与智能光电的联合。

于将来，我会连续研究多模态认知计较于临地安防中的运用，但愿可以或许买通数据获取及处置惩罚之间的接洽，合理使用“正向激励噪声”（Pi-Noise），成立以多模态认知计较及智能光电为支撑的临地安防系统。

参考链接：https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0226;JSESSIONID=7c3d5b26-e0d8-42c1-8790-d3b5f379664e

（公家号：雷峰网(公家号：雷峰网)）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天