米兰·(milan)中国官方网站-斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

作者：米兰·(milan)文化更新时间：2026-04-08 16:44:32 点击数：

「我一直但愿家里有一个呆板人，可以帮我洗衣服、做饭。」

宋舒然谈道。而要实现这一假想，呆板人视觉研究是不成缺乏的一环。

最近几年来，计较机视觉与呆板人的「联姻」于人工智能范畴热火朝天。单就主动驾驶来看，就有很多研究职员拥有计较机视觉的学科配景，好比阿里达摩院主动驾驶试验室的前卖力人王刚，中国RoboTaxi领先企业AutoX（安途）的开创人肖健雄等等。

从算法架构来看，计较机视觉的研究潜力或者已经「断港绝潢」；但于呆板人的运用中，人们遍及信赖，计较机视觉仍年夜有可为。设计出优异的算法，让呆板人体系能于与物理世界的交互中进修、自立得到履行繁杂使命及协助人类的感知及把持技术，是新一代计较机视觉研究者的重要方针之一，宋舒然也是该赛道上的一员。

作为一位「CVer」，宋舒然为什么会转向呆板人范畴？她于该范畴的研究故事又是如何的？计较机视觉与呆板人体系怎样互动？针对于这些问题，咱们与宋舒然聊了聊。

一、与呆板人视觉的初次「邂逅」

不久前，2022年斯隆研究奖宣布，计较机范畴有四位华人女性科学家入选，宋舒然即是此中之一，名噪一时。

斯隆研究奖被誉为「诺贝尔风向标」，重要授予被认为于各自范畴最有潜力的青年科学家，以往得到该声誉的人工智能学者均非同凡响，如AI科技评论往期报导过的鬲融、马腾宇、方飞等等。宋舒然能乐成被选，实力可见一斑。

但这其实不是宋舒然第一次被「瞥见」。此前，她与团队已经于多个国际呆板人顶会上得到最好论文奖，包括RSS 2019最好体系论文奖、CoRL 2021最好体系论文奖，以和2020年《IEEE Transactions on Robotics》最好论文奖，是最近几年来「呆板人视觉」赛道最知名的青年月表人物之一。

更使人钦佩的是，此时间隔她博士卒业落伍入学术界才不外四年时间。

今朝宋舒然于哥伦比亚年夜学计较机系担当助理传授，重要研究计较机视觉与呆板人技能的交织范畴，如开发能使呆板人体系于与物理世界的交互中进修、并自立得到履行繁杂使命及协助人们的感知及把持技术的算法。

回首本身的研究履历，宋舒然对于AI科技评论谈道，她第一次对于呆板人感兴致，是于年夜一时上的第一门基础课上：

「那是我第一次接触到呆板人。这门课没有教尤其多的专业常识，就是一门动手操作的课，做一辆小车、末了让小车乐成地跑起来，历程很简朴，编程也很简朴，但整个历程中有许多意想不到的欣喜，对于我影响很是年夜。」

在是厥后，于黉舍的呆板人社团来招新时，宋舒然绝不夷由就报名了。也是于到场呆板人社团的历程中，她有时机于本科阶段就接触到了计较机视觉的常识。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：中国香港科技年夜学

宋舒然的本科就读在中国香港科技年夜学电子与计较机工程专业（ECE）。

作为一位土生土长的北京人，2008年奥运会加快了北京成长的国际化，幼年的宋舒然对于摸索世界有着极高的热忱。以是2009年她于高考前夜填写年夜学自愿时，除了了北京年夜学的医学院，还有报考了中国香港科技年夜学的计较机专业：

「咱们那时辰还有是于高考前报自愿。一是报考中国香港的年夜学不占自愿名额，二是我其时就筹算将来要出国走一走。比拟直接就去英国、美国念书，中国香港是一个比力折衷的选择。」

宋舒然自幼是一个擅长进修的学生，于主要的测验中总能阐扬超凡。出在对于自我进修能力的自傲，于报考年夜学自愿时，她也专门遴选了进修难度较高的专业。纵然其时的编程基础险些为零，于填写计较机为自愿专业时，她也没有任何夷由。

也恰是这股子无所害怕的劲，让宋舒然于一个男性占年夜大都的范畴中也能披襟斩棘、所向无敌。

2009年，宋舒然从北京南下，来到中国香港这座以国际化著称的都会。刚到港科年夜不久，她就较着地觉得到多元化的校园情况：

「高中时觉得周围的同窗想要做的工作都差未几。到了中国香港后，发明各人想要实现的人生都很纷歧样。各人学差别的专业，有些人看重社交，有些人会提早计划职业成长，像我如许喜欢做研究的学生反而未几，以是我于本科时的科研时机也更多。」

年夜学时期，宋舒然有幸到场中国香港科技年夜学呆板人社团（HKUST Robotics Team），还有于2011年月表社团到场了一年一度的国际性呆板人角逐——ABU Robocon。那一年，宋舒然与团队博得了中国香港地域的选拔赛，代表中国香港去泰国到场决赛。

「印象中，其时呆板人的研究内里，最难的也是计较机视觉的部门。虽然我的专业不是计较机视觉，但我于阿谁历程中也学到了不少常识，好比视觉追踪与检测。」宋舒然回忆道。

除了了到场呆板人社团，宋舒然还有于年夜三那年（2012年）到场了中国香港科技年夜学与美国麻省理工学院（MIT）的暑期互换生项目。「那一年是第一届，申请的人其实不多，以是我就很是幸运地获得了这个时机。」

虽然只有短短一个暑假，互换时期介入研究的内容也十分基础，但整个历程给宋舒然留下了深刻的印象。

宋舒然记患上，其时她天天城市去MIT CSAIL的年夜楼，天天于路上都能碰到形形色色的人。于这栋外形奇异的年夜楼里，有许多做呆板人研究的人，她天天均可以于年夜楼里看到各类各样希奇的呆板人，「研究者不断地调试着甚么」，整个研究气氛很是活跃。

其时她的引导教员是图形学范畴的年夜神 Frédo Durand。宋舒然记患上，虽然 Frédo 是一位很是有名、事物繁多的传授，但还有是会不厌其烦地腾出教研时间引导互换生们进修方针课程，与他们固按时间开会、解答疑难。于这个历程中，宋舒然也学到了很多图象视觉的常识。

原先宋舒然只是对于研究感兴致，但此次赴MIT互换的履历使她下定了读博的刻意：

「刚上年夜学时我并无想好以后要读博，或者者于学术范畴有多年夜的成长。但到了MIT，熟悉的学生都是PhD，他们做的研究很是成心思，做研究的历程觉得很是振奋，让我最先感觉我似乎也很想去做研究。」

二、请回覆2015：冲破3D视觉

2013年，宋舒然插手普林斯顿年夜学的计较机视觉与呆板人试验室（计较机视觉范畴的知名华人学者邓嘉也于配合带领该试验室）攻读博士，前后师从肖健雄（2016年脱离普林斯顿去创业）与Thomas Funkhouser。据悉，Thomas Funkhouser每一年均只招收1-2名博士生。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：普林斯顿年夜学

普林斯顿年夜学最吸引宋舒然的一点是它较小的试验室范围，及与之带来的能与传授举行更多交流的时机。

读博时期，宋舒然的研究内容聚焦于计较机视觉。虽然本科时做过物体追踪项目，但宋舒然回忆，于刚最先读博时，她的视觉基础是相对于单薄的。

于导师的引导下，她延续本科期间的进修，先是研究3D物体检测与追踪。其时恰逢微软推出一个新的3D感知相机（Kinect 3D Camera Sensor-System），他们便思索是否能用这些新装备，将2D物体检测延长到3D物体追踪。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：微软于2013年推出的Kinect 3D相机感知体系

2014年先后，计较机视觉范畴的一个主要研究标的目的就是2.5D到3D的物体辨认与检测追踪。宋舒然从2013年最先研究，刚好遇上了这一热潮，加之小我私家的后天努力，她的博士生活生计也于是比年夜大都人的发展要迅速患上多。

2015年是宋舒然于计较机视觉研究上的「丰收年」。那一年，她于计较机视觉顶会上发表了4篇高引论文，篇篇经典，而彼时间隔她入学博士才不外两年时间：

3d shapenets: A deep representation for volumetric shapes（google学术援用3500+）

Shapenet: An information-rich 3d model repository（google学术援用2500+）

Sun rgb-d: A rgb-d scene understanding benchmark suite（google学术援用1100+）

Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop（google学术援用1000+）

宋舒然对于AI科技评论先容，她第一次接触深度进修是于“3D ShapeNets: A Deep Representation for Volumetric Shapes”这篇事情中，经汤晓鸥与吴志荣的领导入门。其时，就读在中国香港中文年夜学的吴志荣到普林斯顿互换，宋舒然与他由此结识。

「那时辰深度进修还有没有那末火。2D视觉最先火起来，但把深度进修用在3D视觉的研究还有险些没有。我其时彻底没有做过深度进修的研究，只是做过一些比力传统的2D辨认与检测。由于志荣于汤晓鸥的组里做了许多深度进修的研究，以是咱们就把他拉过来一路互助。」宋舒然回忆道。

斥地性的事情往往艰巨重重。宋舒然记患上，其时他们于互助的历程中碰到了许多坚苦，此中最年夜的坚苦是没有成熟的呆板进修库或者框架去撑持深度进修体系的搭建，「只有贾扬青提出的Caffe，并且比力早期的Caffe其实不撑持计较机视觉的操作」。

以是他们其时的研究重点就放于了怎样开发体系、将2D算法转化为可以接管3D数据上。他们其时的设法实在很是简朴–从2D pixel 表征方式转化成 3D voxel 的表征方式。虽然此刻看来这个要领有许多较着的缺陷（需要年夜量的显存空间）, 但利益是可以沿用许多传统的2D 算法，好比卷积。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：3D ShapeNets（2015）的转换道理

这是第一个乐成经由过程深度进修要领将2.5D延长到3D上的视觉事情。于此以前，深度进修多用于2D图象或者天然语言处置惩罚上。「3D ShapeNets」初次展示了深度进修体系怎样进修外形表征的历程，且通用性强，可以运用于多个差别的使命上，于计较机视觉范畴孕育发生了深远的影响。

对于在宋舒然来讲，这个事情既是她研究生活生计中的一个里程碑，也是开导她于研究中采用「简朴而高效」的要领论的出发点：

「它很简朴，但很是高效，独一的限定是对于算力的需求加年夜，由于数据的维度晋升，计较量也会随之增加。此外，这是我第一次研究3D，我以后的很多事情都延续了这个项目的idea（不雅点），即用3D深度进修体系做外形表征。」

依附于计较机视觉标的目的（特别是数据驱动的3D场景理解）的一系列精彩事情，宋舒然得到2015年Facebook博士生奖学金。她的事情登上普林斯顿研究校刊，还有入选了「普林斯顿25岁如下立异25人」。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：宋舒然于普林斯顿读博时期

三、从视觉到呆板人

呆板人对于实际世界的感知正确率依靠在视觉中的3D语义场景完成技能。宋舒然于3D视觉上的研究冲破奠基了她从事呆板人视觉研究的基础。

从2016年提出「Deep Sliding Shapes」后，她就最先于研究视觉之余摸索怎样用3D视觉提高呆板人推理周围情况的物体的能力。彼时，计较机视觉正愈来愈多地从阐发单个静止图象转向理解视频及空间数据，对于呆板人的智能晋升是一年夜利好。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：宋舒然于普林斯顿年夜学研究的呆板人（“Robot In a Room: Toward Perfect Object Recognition in Closed Environments”）

想象一下，假如一个呆板人要扫除房间，那末它既需要有空间导航能力、知道挪动到哪里，也需要辨认出房间中的差别物体，才可以履行扫地、整理、收拾等使命。

这时候，呆板人就需要理解两个层级的信息：第一层级是帮忙呆板人与周围情况互动，可以辨认挪动的开放空间，并定位要操作的物体对于象；第二层级和以上的信息则使呆板人相识一个物体是甚么，并利用该物体来履行使命。

于这个问题上，以往的研究趋在将二者分隔，划分为「场景完成」与「对于象标志」。但2017年，宋舒然与团队提出了「SSCNet」体系，经由过程从单个2D图象天生场景的完备3D暗示与场景对于象的标志，将二者联合起来，取患了更佳的算法效果。

只管仍是从3D视觉出发，但这项事情预示了宋舒然以后于研究呆板人视觉上的一个主要理念：呆板人经由过程与实际世界的互动中相识世界。好比，纵然一个房间里的椅子视野部门被桌子盖住，但若呆板人可以或许将其对于椅子外形的基本辨认与房间结构相联合，那末它也能判定桌子阁下的外形是椅子。这种猜测的正确率会年夜幅度晋升。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：于「SSCNet」中，只需要输入「桌子」的图象，就能够猜测桌子周围的物体摆放

于3D物体检测与追踪上做了很多事情后，2017年，宋舒然与MIT的呆板人团队互助，一路到场了亚马逊呆板人挑战赛——Amazon Picking Challenge，最先测验考试视觉与呆板人的「软硬联合」。

「咱们最最先互助的设法很是简朴。他们是做呆板人的，咱们是做视觉的，咱们把双方的体系合起来就能够去到场角逐。咱们第一年也确凿是这么做的。」宋舒然对于AI科技评论讲道。

不外，这类「粗暴搭配」的做法并无取患上很好的效果。

2017年，他们互助的方式是：由宋舒然的计较机视觉组先界说一个要输出的算法成果（如物体姿式），然后再由MIT的呆板人组经由过程视觉输出的算法去做动作计划（motion planning），计较呆板人怎样可以抓取方针物体。

但此次的互助其实不高效。普林斯顿与MIT位在差别的都会，两个团队之间的交流重要是经由过程邮件传代码，宋舒然团队的视觉算法过了一个月后才放于MIT的呆板人上实验。

于实验的历程中，他们也发明了很多问题，好比：宋舒然团队所提出的视觉算法很是慢，致使整个体系也很慢；可用在练习的标注数据极为有限，模子跑不起来；算法精度不敷，对于在计较机视觉来讲，偏差于5度5厘米之内的算法精度已经是效果极佳，但当这个偏差被真正运用于呆板人操作上时，却可能造成整个呆板人情况的瓦解。

以是，2017年的角逐中，他们只取患了第三名的成就。可是，此次的互助也激起了宋舒然对于呆板人视觉的研究热忱，他们发明了很多成心思的问题，引发了很多晋升体系的设法，在是决议继承互助到场2018年的角逐。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：MIT-Princeton 团队于亚马逊呆板人竞赛(2018)

这一次，宋舒然及整个团队对于物体姿态的算法举行了从头整合，再也不利用中间的物体姿态作猜测，而是直接从图象出发去猜测呆板人应该采纳如何的动作。云云一来，整个算法体系的速率有了年夜幅晋升，并且越发通用。

亚马逊挑战赛的内容是：呆板人要从一个装了各类物体的盒子里遴选出方针物体。这时候，盒子里的物体之间可能相互遮挡，会盖住呆板人的视野。

针对于这个问题，宋舒然团队摈斥了以前「先辨认物体」的步调，而是设为「先抓取物体」，把物体先掏出来再辨认。这时候，呆板人只需要知道物体的哪一个部位更容易抓取，而无需判定物体是甚么，体系的鲁棒性也年夜年夜增强了。

于改良算法后，他们的呆板人抓取速率快速晋升，得到了2018年亚马逊抓取呆板人挑战赛的冠军，还有得到2018年亚马逊最好操作体系论文奖。

自此，宋舒然也正式踏上了用计较机视觉帮忙呆板人感知物理世界、与物理世界交互的研究门路。

四、简朴，但高效

2018年，宋舒然从普林斯顿年夜学得到计较机博士学位，后插手哥伦比亚年夜学计较机系担当助理传授。问和为什么选择哥年夜，她给出的理由是：

「我选择哥年夜的一个主要缘故原由是地舆位置。我还有是喜欢待于都会里。我是于北京长年夜的，然后去了中国香港读年夜学。去了普林斯顿后，我就发明我不合适于一个小镇子里糊口，以是我就想回到年夜都会，就选了哥年夜，由于它于纽约。」

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：哥伦比亚年夜学

担当教职后，宋舒然于呆板人视觉的研究上屡出结果，三年内接连拿下RSS 2019最好体系论文奖、T-RO 2020最好论文奖、CoRL 2021最好体系论文奖，相干事情还有得到了IROS 201八、RSS 201九、CVPR 201九、ICRA 2020等顶级集会的最好论文提名。

2018年，宋舒然团队延续亚马逊挑战赛的思绪，进一步研究呆板人于「推」与「抓」两个动作上的协同。只管强化进修于其时很火，但宋舒然的这个事情初次于呆板人视觉研究中直接引入了强化进修要领，并得到了IROS 2018最好感知呆板人论文奖提名。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：该感知呆板人先「推开」物体，再「抓取」物体

「其时咱们的终极方针是能把物体抓起来。『抓』这个动作很好评估，只要能抓起来就是positive reward（正向奖励）。但『推』这个动作很难评估，甚么样的『推』才算是好的『推』？以是咱们就采用强化进修要领，提供一个好的评估函数去界说『推』，末了只需要编写一个终极奖励（即推的动作能帮忙抓取物体）便可。」宋舒然向AI科技评论注释道。

据宋舒然先容，于她与团队「凭直觉」做这个项目以前，年夜大都人都认为强化进修要领需要年夜量的数据，以是很难于真正的呆板人上直接练习。纵然到此刻，强化进修被运用在呆板人的要领也不是主流，宋舒然与团队也没想到「真的能跑起来」，可以说打破了不成为的魔咒、赐与了该标的目的的研究者以莫年夜的决定信念。

宋舒然于呆板人视觉体系上的第一个里程碑事情当属得到RSS 2019最好体系论文奖的「TossingBot」。于这个事情中，他们与google的研究团队互助，终极结果登上了《纽约时报》贸易板块的封面。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：TossingBot登上《纽约时报》贸易版封面

这个抛掷呆板人的「绝杀技」是可以进修快速正确地捡起肆意物体，并将其扔到四周的方针框中。研究者认为，抛掷是一种使用动力学来提高机械手能力的绝佳要领。例如，「于拾取与放置的例子中，抛掷可使机械臂快速地将物体放入其最年夜运动规模以外的选定盒子中，从而提高其可接触的物理规模及拾取速率。」

这个事情暗地里的要害思惟是「残差物理学」（Residual Physics），可以将简朴的物理学与深度进修相联合，使体系可以或许从试错中快速练习、并泛化到新的场景中。

物理学提供了世界怎样运作的先验模子，宋舒然与团队可以使用这些模子开发初始节制器。好比，于抛掷中，他们可使用弹道学来预计使物体下降于方针位置所需的抛掷速率，同时利用神经收集于物理预计之上猜测调解，以赔偿未知动态以和实际世界的噪声及可变性。

作为一位计较机视觉专业的「科班生」，宋舒然每一研究一个项目，便愈发为视觉与呆板人的交织联合所能孕育发生的神奇效果惊奇。TossingBot的事情发表后，她于接管《纽约时报》的采访时赞叹道：「It is learning more complicated things than I could ever think about.（呆板人正于进修更繁杂的工作，这是我之前没有想过的。）」

不外，这显然不是尽头。「TossingBot」发表两年后，宋舒然又挑战了呆板人于高速动态动作上的新高度。她领导她于哥年夜的第一名博士生Huy Ha，又依附另外一个呆板人「FlingBot」拿下了第二个最好体系论文奖——CoRL 2021最好体系论文奖。

其时CoRL 2021的评比委员会对于「FlingBot」这项事情给出了极高的评价：「这篇论文是我见过的迄今为止对于模仿及实际世界布料操作方面的最了不得的事情。」

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

论文地址：https://arxiv.org/pdf/2105.03655.pdf

「FlingBot」挑战的使命是布料处置惩罚，迁徙到一样平常糊口中，就是常见的铺床单、铺被子等等。此前，针对于这项使命的年夜大都事情是利用单臂准静态动作来操作布料，但这需要年夜量的交互来挑战初始布料配置，并严酷限定了呆板人可和规模的最年夜布料尺寸。

在是，宋舒然与学生利用了自监视进修框架FlingBot，从视觉不雅察出发设置双臂操作，对于织物利用拾取、拉伸并投掷的初始配置。试验注解，FlingBot的3个动作组合可以笼罩80%以上的布料面积，跨越静态基线的面积4倍以上。

斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

图注：FlingBot

听起来是否是很简朴？

「算法确凿不难，以是这篇事情还有被RSS拒过，理由是要领过在『trivial』。」宋舒然笑道。

他们一最先的设法很简朴：其时他们看了很多文献，所有事情都是采用拾取、放置，这与人们于一样平常糊口中的习气十分差别。「举一个很是简朴的例子，就是早上铺床。咱们不成能不寒而栗地去做『pick up-place』（拾取-放置），咱们铺床单一般就是一扔，抛开后再把床单放开，但没有呆板人体系是如许做的。」

以是他们就思索，是否可让呆板人采用一些扔高、睁开的动作，如抛开。末了做出体系时，他们也发明，整个体系确凿很是简朴，只需分化成三步：第一步是抓布料，第二步是把布料睁开，第三步是「扔」开布料。而「睁开」与「扔」这两个动作基本不需要进修，由于学与不学的区分不年夜，真正要学的只有「抓」这一步，由于怎样抓会直接影响后面的「睁开」与「扔」。

虽然他们于「抓」这一步上也冲破了传统算法，但总体而言，「FlingBot」的整个体系是比力简朴的。以是于第一次提交论文时，评审们就将论文拒了，理由均是：成果很了不得，体系也很了不得，但算法很是简朴。

这时候候宋舒然的反向思维又来了：于第二次提交时，他们就于论文中夸大了「简朴但高效」的亮点——

「用一个简朴的算法就能够解决一个这么繁杂的使命，莫非不是好于你去设计一个很是繁杂的体系吗？并且它的效果很是好，偏偏证实了它于高速动态动作上的效率。」

这与她于博士时期与汤晓鸥等人互助3D ShapeNets的研究思惟是一脉相承的：简朴，但高效。厥后，FlingBot 果然被 CoRL 吸收，还有得到了最好体系论文奖。

五、一些思索

这时候想必各人都已经发明，与于布局性情况中的呆板人（如亚马逊工场的产线呆板人）比拟，宋舒然的呆板人事情，不管是「TossingBot」还有是「FlingBot」，都需要先对于物理情况举行感知，把握情况信息，然后履行顺应情况的动作。

「于工场或者堆栈中，呆板人天天碰到的物体、物体位置与物体种别高度相似，于这种场景下，呆板人的感知与计划已经经到达很是成熟的状况。许多工场的流水线上都安设了主动化呆板人。但若你细心不雅察，这些呆板人年夜可能是没有『视觉』的，它们只是于影象特定的动作，然后反复一样的动作，以是它们不克不及照搬到一个新的情况。」

是以，宋舒然认为，怎样让呆板人去顺应非布局化的情况，是呆板人视觉接下来的要害研究标的目的。于她的研究中，不管是从对于人的不雅察中进修呆板人的进化经验，还有是夸大呆板人与实际世界的交互，都是于为这个标的目的努力。

好比，于FlingBot中，为何会用「扔」的动作去睁开物体呢？宋舒然注释：「假如物体被睁开，是更易被辨认的。假如衣物揉成一团，不睁开的话你底子不知道是T恤还有是裤子。」从这个角度来看，呆板人与物理世界的交互也有益在晋升感知的正确性。

换言之，于视觉与呆板人的联姻中，不仅是视觉帮忙呆板人感知，反过来，呆板人的动作也会增长视觉的感知。

六、切磋「通用人工智能」

AI科技评论：Yann LeCun 以前一直夸大自监视进修是下一代人工智能的主要标的目的，教员您怎么看？

宋舒然：我很是赞成。我感觉简直是的。此刻咱们已经经于监视进修上取患了许多的进展，包括ImageNet及现有的很多Benchmark（基准），下一步假如咱们想用上更年夜的数据集，实在很难再标注更多的数据了。咱们需要的是于算法上的提高，就是怎样去使用这些没有标注的数据。

于这个标的目的上，差别的范畴有差别的界说要领。怎样去界说自监视进修？我感觉这是最焦点的问题。于计较机视觉范畴，你可以做视频猜测；于天然语言处置惩罚标的目的，你可以做语言计较。我一直于想的是，于呆板人范畴，怎样界说自监视进修？怎样去界说一个同一框架可以去做自立自监视进修？

AI科技评论：并且以前许多人于夸大这个标的目的的时辰，似乎都没有提到跟实际的交互。

宋舒然：对于的，由于它的成本简直比力高。假如你没有呆板人，你需要买一个呆板人。并且就算是有呆板人，经由过程交互去网络数据，觉得上是要比标注数据慢许多的。但这其实不代表它没有远景；相反，我感觉这是一个更有潜力的标的目的。雷峰网(公家号：雷峰网)

特别是，假如你思量将来的人工智能成长，当呆板人再也不是一个昂贵的装备，当呆板人的标价降低、遍布各地，而且可以履行许多使命时，我感觉经由过程交互的自监视进修会酿成更主流的要领。

AI科技评论：大白。教员您能否再总结一下，这类交互加自监视进修的进修方式，已往的成长、当前存于的瓶颈及将来趋向是甚么？

宋舒然：今朝「自监视+交互」的方式里仍旧掺杂了很多报酬经验。咱们此刻的很多事情，好比咱们可以用自监视的方式做「抓取」，缘故原由是咱们可以很好地计较这个物体是否是被抓起来了。对于在「睁开」这个动作也是同样的。咱们可以经由过程物体的外貌、面积有无睁开作为一个监视的信息。可是这些奖励虽然是自监视，可以直接从图象里计较，但它也是由人来界说的，是经验告诉咱们可以获得如许的信息。

并且我感觉于任何一个算法里，假如必需由一小我私家类工程师去界说工作的话，往往会成为一个瓶颈。以是瞻望将来，咱们怎样去削减这类报酬的经验？是否是可以经由过程学一个将来猜测模子，或者者学一个比力通用的世界模子，然后用一种比力同一的方式去看，或者者比力直觉的方式去设计？而不是咱们需要去对于每个使命特定设计世界模子。我感觉这个多是未来比力成心思的成长标的目的。

AI科技评论：今朝对于在通用人工智能的实现，您有无一些理解及假想？

宋舒然：我感觉我没有很清楚的理解及假想（笑）。通用人工智能是终极方针，但咱们简直还有有很年夜的间隔。许多设法是成心思的，但以我此刻有限的理解，还有是需要很永劫间的成长，很难说哪一个标的目的是更有远景的，或者更成心义的。雷峰网

但我感觉进修嵌入式智能长短常要害的一步，由于我感觉通用人工智能不只是理解收集信息，不只是理解图象或者抽象数据，还有需要理解物理、理解3D情况。

AI科技评论：就是先不说通用人工智能是甚么样子，可是要增进咱们对于通用人工智能的理解的话，咱们不克不及局限在当前已经有的这些使命，而是要去不停摸索新的使命是吗？

宋舒然：对于的，并且不克不及只思量对于呆板进修模子举行抽象，还有要思量假如你要构建一个「物理两全」（physical embodiment），好比呆板人，它是可以于实际的物理世界中去与差别的物体互动的。

不说人工智能，只是说咱们（人类）的智能。实在咱们学到了许多智能，但不只是经由过程收集，不只是经由过程念书、看图片或者看视频，很年夜一部门的智能是于交互中进修的，好比怎么走路，怎么拿起物体。

以是我的一个理解是，实现通用人工智能，呆板人或者嵌入式智能长短常主要的一步。

注：琰琰、青暮对于本文亦有孝敬。雷峰网

参考链接：

1. https://www.researchgate.net/figure/The-Microsoft-Kinect-3D-Camera-Sensor-System-an-IR-transmitter-3D-Depth-Sensors_fig15_309740491

2. https://www.cs.princeton.edu/news/andy-zeng-shuran-song-win-best-systems-paper-award

3. https://www.cs.princeton.edu/news/article/shuran-song-wins-facebook-fellowship

4. https://www.cs.princeton.edu/news/deep-learning-improves-robotic-vision

5. https://www.cs.princeton.edu/news/scene-completing-system-may-show-robots-what-theyre-missing

6. http://arc.cs.princeton.edu/

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天