米兰·(milan)中国官方网站-向人类再进一步|MIT×UMich探索可以理解物体空间关系的人工智能

人类于描写场景时,常常描写物体之间的空间瓜葛。生物视觉辨认触及自上而下通路及自下而上通路的交互,而深度神经收集只模仿了第二种通路。自上而下的视觉通路触及生物视觉感知的全局性、拓扑性、多解性等特色,特别是理解图象时碰面临数学上的无限解问题。而这些特色也许就是深度神经收集下一步的改良标的目的。
“视觉场景理解包括检测及辨认物体,推理被检测物体之间的视觉瓜葛以和利用语句描写图象区域。”依据《咱们赖以保存的隐喻》的不雅点,物体瓜葛比拟在语义瓜葛是越发基本的,由于语义瓜葛暗地里都包罗着物体瓜葛的假定。

就以下图中,两只猫猫于「互殴」,另外一只猫猫于阁下不嫌事年夜地看热闹。经由过程这个例子,人类可以很是清楚直接地不雅察并捕获到猫咪的位置、举动及联系关系。但很多深度进修模子却没法以不异的方式理解繁杂实况,捕捉全数信息并举行解析,由于它们不大白单个物体之间的「纠缠」瓜葛。


为了让呆板人可以或许精准完成这些使命,来自麻省理工学院的Shuang Li、Yilun Du及伊利诺伊年夜学喷鼻槟分校的Nan Liu等人互助提出一款可以理解场景中物体之间空间瓜葛的模子。该模子具备很好的泛化能力,可以或许经由过程组合多个物体的空间瓜葛从而天生或者者编纂繁杂的图片。论文已经作为Spotlight展示被NeurIPS 2021吸收。

论文链接:https://arxiv.org/abs/2111.09297
总的来讲,研究重要有三个重要孝敬:
1. 提出了一个框架来分化及组合物体之间的瓜葛,该框架可以或许天生及编纂图象按照经由过程组合物体之间空间瓜葛描写,而且较着优在基线要领。
2. 可以或许揣度出潜于物体之间的场景描写,并可以或许很好的理解物体之间的语义等效。语义等效是一样的场景可是差别的表述方式,例如苹果于喷鼻蕉左侧及喷鼻蕉于苹果右侧。
3. 最主要的这个要领经由过程组合物体瓜葛的描写可以推广到之前未见过的更繁杂瓜葛描写中。
这类泛化可以运用在工业呆板人履行繁杂多步调的把持使命,好比于堆栈中堆放物品或者组装电器。让呆板能进一步“仿生”人类从情况中进修、互动,而且经由过程不停进修分化,组合从而很快顺应新的情况及进修新的使命。
配合一作Yilun Du说道:“当咱们看到一张桌子时,不会用空间坐标系的XYZ三轴来表达物体位置, 由于人类年夜脑不是如许事情的。咱们对于周围情况的洞悉是基在物体之间的瓜葛。经由过程构建可以或许理解物体瓜葛的体系,更有用地把持机械从而转变周围场景。”
单次单个瓜葛
研究职员所提框架的亮点就于在,「它能以人类的方式“解读”场景中物体之间的瓜葛」。
好比输入一段文本——木桌于蓝色沙发的右边,木桌于木柜的前面。
体系起首将句子拆分为「木桌于蓝色沙发的右边」及「木桌于木柜的前面」两部门,再一一描写零丁部门之间的空间瓜葛,然后对于每一个瓜葛几率漫衍建模,经由过程优化历程将这些分散的“布局”会合,终极天生一个完备、正确的场景图象。

基在能量的模子(Energy-Based Model)
研究职员利用呆板进修中「基在能量的模子」编码每一一对于物体直接的空间瓜葛,然后像乐高积木同样将它们组合起来从而描写整个场景。
配合一作Shuang Li注释道:“体系经由过程从头组合物体之间的描写,从而孕育发生很好泛化能力,可以天生或者者编纂之前没有见过的场景。”

Yilun Du也暗示:“其他体系是从总体上思量场景中物体之间的瓜葛,再按照文本描写中一次性天生场景图象。一旦包罗更繁杂的场景描写时,这些模子就没法真实的理解而且出产想要的场景图象。咱们将这些零丁的、较小的模子集成起来,实现对于更多的瓜葛举行建模,从而可以出产新奇的组合。
这个模子也能够逆向操作。给定一张图象及差别的描写文本,它能正确找参加景布局中与物体瓜葛相匹配的描写文本。
理解繁杂场景

每一种环境下,Nan Liu等人提出的模子都优在基线。
“咱们的模子于练习历程中只见过一个物体瓜葛描写,可是于测试中,当物体瓜葛描写增长到两个、三个甚至四个的时辰,咱们的模子依然效果优良,其他呆板进修要领则掉败了。”
如图所示,图象编纂(Image Editing) 列出了差别要领于 CLEVR 及 iGibson 数据集上的分类成果。文中要领都年夜年夜优在基线—— StyleGAN2及StyleGAN2 (CLIP)。于 2R 及 3R 测试子集上的模子亦有优异体现,所提要领对于练习漫衍以外的瓜葛场景描写具备优良的泛化能力。

研究职员还有请试验介入者评估天生图象及场景描写的匹配度。于描写包罗三个物体瓜葛的最繁杂示例中,91% 的人认为该模子比其他基线的机能更好。
于模子代码网页上Interactive Demo的展示中,可以清楚看到新模子于多层物体位置中依然可以根据指令正确天生咱们想要的图象。
OpenAI练习的神经收集模子「DALL·E」,也是可以按照文本标题为天然语言的各类观点创立图象。DALL·E 虽然可以很好的理解物体,可是不克不及够正确的理解物体之间的瓜葛。
可以说Nan Liu等人提出的新模子鲁棒性十分优胜,尤其是于处置惩罚从未碰到的场景描写时,其他算法只能望其项违。

虽然初期试验效果甚佳,但研究职员但愿模子可以或许进一步于更繁杂的真实世界场景中(好比具备嘈杂的配景及彼此拦截的物体时)履行使命。更进一步让呆板人可以或许经由过程视频揣度物体空间瓜葛,然后运用这些常识来及周边情况中的物体交互。”
捷克技能年夜学捷克信息学、呆板人及节制论研究所的卓异研究员 Josef Sivic 说:“开发出可以理解事物瓜葛而且经由过程不停组合熟悉新的事物是计较机视觉范畴至关主要的开放问题之一。他们的试验成果着实使人赞叹。”
作者先容

Nan Liu, 伊利诺伊年夜学厄巴纳喷鼻槟分校硕士。2021 年卒业在密歇根年夜学安娜堡分校,得到计较机科学学士学位。今朝从事研究计较机视觉及呆板进修。

Shuang Li, MIT CSAIL博士,师从Antonio Torralba。重要研究利用语言作为交流及计较东西以和构建可以连续进修并与周围世界互动的智能体。

Yilun Du,MIT CSAIL博士生,受 Leslie Kaelbling 传授、Tomas Lozano-Perez 传授及 Josh Tenenbaum 传授引导。他对于构建可以像人类同样感知理解世界的智能体及对于构建模块化体系感兴致。曾经于国际生物学奥林匹克竞赛中得到了金牌。

Joshua B. Tenenbaum,MIT脑认知科学系传授、CSAIL研究员。1993 年得到耶鲁年夜学物理学学士学位,1999 年得到麻省理工学院博士学位。Tenenbaum因对于数学生理学及贝叶斯认知科学的孝敬而著名,他是最早开发并将几率及统计建模运用在人类进修、推理及感知研究的人之一。2018 年,R D 杂志将 Tenenbaum 评为“年度立异者”。麦克阿瑟基金会在 2019 年授予他麦克阿瑟研究员称呼。

Antonio Torralba,MIT电气工程与计较机科学系 (EECS) 人工智能与决议计划系主任、CSAIL的首席研究员、MIT-IBM Watson AI Lab卖力人、2021 AAAI Fellow。1994年得到西班牙电信BCN的电信工程学位,并在2000年得到法国格勒诺布尔国立理工学院的旌旗灯号,图象及语音处置惩罚博士学位。他是“计较机视觉国际期刊”的副主编,并于2015年担当计较机视觉及模式辨认集会的规划主席。2008年国度科学基金会职业奖,2009年IEEE计较机视觉及模式辨认集会上得到最好学生论文奖,2010年获JK国际模式辨认协会颁布的Aggarwal奖。2017年Frank Quick Faculty研究立异奖学金及Louis D. Smullin优异讲授奖。
参考链接:
https://news.mit.edu/2021/ai-object-relationships-image-generation-1129
https://openai.com/blog/dall-e/
https://composevisualrelations.github.io/
https://arxiv.org/abs/2111.09297
雷峰网(公家号:雷峰网)雷峰网雷峰网原创文章,未经授权禁止转载。详情见转载须知。





