米兰·(milan)中国官方网站-吴恩达：告别，大数据

作者：米兰·(milan)文化更新时间：2026-04-10 17:08:54 点击数：

吴恩达：告别，大数据

编译丨维克多、王晔

吴恩达是人工智能（AI）及呆板进修范畴国际最权势巨子的学者之一，近来一年里，他一直于提“以数据为中央的AI”，但愿将各人的眼光从以模子为中央转向以数据为中央。

近来，于接管IEEE Spectrum的采访中，他谈到了对于基础模子、年夜数据、小数据以和数据工程的一些感悟，并给出了倡议“以数据为中央的AI”运动的缘故原由。

“已往十年，代码—神经收集的架构已经经很是成熟。连结神经收集架构固定，寻觅改良数据的要领，才会更有用率。”

吴恩达暗示，他这类以数据为中央的思惟遭到了许多的攻讦，就及昔时他倡议Google brain项目，撑持构建年夜型神经收集步履，时辰遭到的攻讦时同样：设法不新鲜，标的目的过错。据吴传授先容，攻讦者中不乏行业资深人士。

吴恩达：告别，大数据

关在小数据，吴传授认为，它一样可以或许有威力：“只要拥有50个好数据（examples），就足以向神经收集注释你想让它进修甚么。”

如下是采访原文，AI科技评论做了不转变原意的编译。

吴恩达：告别，大数据

IEEE：已往十年，深度进修的乐成来历在年夜数据及年夜模子，但有人认为这是一条不成连续的路径，您赞成这个不雅点么？

吴恩达:好问题。

咱们已经经于天然语言处置惩罚（NLP）范畴看到了基础模子（foundation models）的威力。说真话，我对于更年夜的NLP模子，以和于计较机视觉（CV）中构建基础模子感应高兴。视频数据中有许多信息可以使用，但因为计较机能以和视频数据处置惩罚成本的限定，还有没法成立相干的基础模子。

年夜数据与年夜模子作为深度进修引擎已经经乐成运行了15年，它仍旧具备活气。话虽云云，但于某些场景下，咱们也看到，年夜数据其实不合用，“小数据”才是更好的解决方案。

IEEE：您提到的CV基础模子是甚么意思？

吴恩达:是指范围很是年夜，并于年夜数据上练习的模子，利用的时辰可以为特定的运用举行微调。是我及斯坦福的伴侣创立的术语，例如GPT-3就是NLP范畴的基础模子。基础模子为开发呆板进修运用提供了新的范式，有很年夜的远景，但同时也面对挑战：怎样确保合理、公允、无偏？这些挑战跟着愈来愈多的人于基础模子上构建运用，会愈来愈较着。

IEEE：为CV创立基础模子的契机于哪？

吴恩达：今朝还有是存于可扩大性难题。比拟NLP，CV需要的计较能力更强盛。假如能出产出比此刻高10倍机能的处置惩罚器，就可以很是轻松成立包罗10倍视频数据的基础视觉模子。今朝，已经经呈现了于CV中开发基础模子的迹象。

说到这，我提一嘴：已往十年，深度进修的乐成更多的发生于面向消费的公司，这些公司特色是拥有重大的用户数据。是以，于其他行业，深度进修的“范围范式”其实不合用。

IEEE：您这么一说我想起来了，您初期是于一家面向消费者的公司，拥有数百万用户。

吴恩达：十年前，当我倡议 Google Brain 项目，并利用 Google的计较基础举措措施构建“年夜”神经收集的时辰，引起了许多争议。其时有位行业资深人士，“暗暗”告诉我：启动Google Brain 项目倒霉在我的职业生活生计，我不该该只存眷年夜范围，而应该专注在架构立异。

到此刻我还有记取，我及我的学生发表的第一篇NeurIPS workshop论文，倡导利用CUDA。但另外一位行业资深人劝我：CUDA 编程太繁杂了，将它作为一种编程范式，事情量太年夜了。我想措施说服他，但我掉败了。

IEEE：我想此刻他们都被说服了。

吴恩达：我想是的。

于已往一年，我一直于会商以数据为中央的AI，我碰到了及10年前同样的评价：“没有新意”，“这是个过错的标的目的”。

IEEE：您怎样界说“以数据为中央的AI”，为何会称它为一场运动？

吴恩达：“以数据为中央的AI”是一个体系的学科，旨于将存眷点放于构建AI体系所需的数据上。对于在AI体系，用代码实现算法，然后于数据集上练习长短常须要的。已往十年，人们一直于遵照“下载数据集，改良代码”这一范式，多亏了这类范式，深度进修得到了巨年夜的乐成。

但对于很多运用步伐来讲，代码—神经收集架构，已经经基本解决，不会成为年夜的难点。是以连结神经收集架构固定，寻觅改良数据的要领，才会更有用率。

当我最最先提这件事的时辰，也有很多人举手同意：咱们已经经根据“套路”做了20年，一直于凭直觉干事情，是时辰把它酿成一门体系的工程学科了。

“以数据为中央的AI”远比一家公司或者一群研究职员要年夜患上多。当我及伴侣于NeurIPS上构造了一个“以数据为中央的AI”钻研会时辰，我对于出席的作者及演讲者的数目感应很是兴奋。

IEEE：年夜大都公司只要极少量数据，那末“以数据为中央的AI”怎样帮忙他们？

吴恩达：我曾经用3.5亿张图象构建了一小我私家脸辨认体系，你也许也常常听到用数百万张图象构建视觉体系的故事。但这些范围产品下的架构，是没法只用50张图片构建体系的。事实证实。假如你只有50张高质量的图片，仍旧可以孕育发生很是有价值的工具，例如缺陷体系检测。于很多行业，年夜数据集其实不存于，是以，我认为今朝必需将重点“从年夜数据转移到高质量数据”。实在，只要拥有50个好数据（examples），就足以向神经收集注释你想让它进修甚么。

吴恩达：利用50张图片练习甚么样的模子？是微调年夜模子，还有是全新的模子？

吴恩达：让我讲一下Landing AI的事情。于为制造商做视觉查抄时，咱们常常利用练习模子，RetinaNet，而预练习只是此中的一小部门。此中更难的问题是提供东西，使制造商可以或许遴选并以不异的方式标志出准确的用在微调的图象集。这是一个很是现实的问题，不管是于视觉、NLP，还有是语音范畴，甚至连标志职员也不肯意手动标志。于利用年夜数据时，假如数据乱七八糟，常见的处置惩罚方式是获取年夜量的数据，然后用算法举行平均处置惩罚。可是，假如可以或许开发出一些东西标志数据的差别的地方，并提供很是具备针对于性的要领改善数据的一致性，这将是一个得到高机能体系的更有用的要领。

例如，假如你有10,000张图片，此中每一30张图片一组，这30张图片的标志是纷歧致的。咱们所要做的工作之一就是成立东西，可以或许让你存眷到这些纷歧致之处。然后，你就能够很是迅速地从头标志这些图象，使其越发一致，如许就能够使机能获得提高。

IEEE：您认为假如可以或许于练习前更好地设计数据，那这类对于高质量数据的存眷是否能帮忙解决数据集的误差问题？

吴恩达：颇有可能。有许多研究职员已经经指出，有误差的数据是致使体系呈现误差的浩繁因素之一。实在，于设计数据方面也已经经有了许多努力。NeurIPS钻研会上，Olga Russakovsky就这个问题做了一个很棒的演讲。我也很是喜欢Mary Gray于会上的演讲，此中提到了“以数据为中央的AI”是解决方案的一部门，但其实不是解决方案的全数。像Datasheets for Datasets如许的新东西好像也是此中的主要部门。

“以数据为中央的AI”付与咱们的强盛东西之一是：对于数据的单个子集举行工程化的能力。想象一下，一个颠末练习的呆板进修体系于年夜部门数据集上的体现还有不错，却只于数据的一个子集上孕育发生了误差。这时候候，假如要为了提高该子集的机能，而转变整个神经收集架构，这是相称坚苦的。可是，假如能仅对于数据的一个子集举行设计，那末就能够更有针对于性的解决这个问题。

IEEE：您说的数据工程详细来说是甚么意思？

吴恩达：于人工智能范畴，数据洗濯很主要，但数据洗濯的方式往往需要人工手动解决。于计较机视觉中，有人可能会经由过程Jupyter notebook将图象可视化，来发明并修复问题。

但我对于那些可以处置惩罚很年夜数据集的东西感兴致。纵然于标志很嘈杂的环境下，这些东西也能快速有用地将你的留意力吸引到数据的单个子集上，或者者快速将你的留意力引向100个分组中的一个组中，于那里网络更大都据会更有帮忙。网络更多的数据往往是有帮忙的，但若所有事情都要网络年夜量数据，可能会很是昂贵。

例如，我有次发明，当配景中有汽车噪音时，有一个语音辨认体系的体现会很差。相识了这一点，我就能够于汽车噪音的配景下网络更多的数据。而不是所有的事情都要网络更多的数据，那样处置惩罚起来会很是昂贵且费时。

IEEE：那利用合成数据会是一个好的解决方案吗？

吴恩达：我认为合成数据是“以数据为中央的AI”东西箱中的一个主要东西。于NeurIPS钻研会上，Anima Anandkumar做了一个关在合成数据的出色演讲。我认为合成数据的主要用途，不单单体现于预处置惩罚中增长进修算法数据集。我但愿看到更多的东西，闪开发者利用合成数据天生成为呆板进修迭代开发闭环中的一部门。

IEEE：您的意思是合成数据可让你于更多的数据集上测验考试模子吗？

吴恩达：并不是云云。比喻说，智能手机上有很多差别类型的缺陷，假如要检测智能手机外壳的缺陷，那可能会是划痕、凹痕、坑痕、质料变色或者者其它类型的瑕疵。若你练习了模子，然后经由过程偏差阐发发明整体上它的体现很好，但于坑痕上体现患上很差，那末合成数据的天生就能够让你以更有针对于性地解决这个问题。你可以只为坑痕种别天生更多的数据。

IEEE：您可以举例详细申明吗？若一家公司找到Landing AI，并说他们于视觉查抄方面有问题时，您将怎样说服他们？您又将给出如何的解决方案呢？

吴恩达：合成数据天生是一个很是强盛的东西，但我凡是会先测验考试很多更简朴的东西。好比说用数据加强来改善标签的一致性，或者者只是要求厂家网络更多的数据。

当客户找到咱们时，咱们凡是会先就他们的检测问题举行扳谈，并查看一些图象，以验证该问题于计较机视觉方面是否可行。假若可行，咱们会要求他们将数据上传到LandingLens平台。咱们凡是按照“以数据为中央的AI”要领向他们提供建议，并帮忙他们对于数据举行标志。

Landing AI存眷的重点之一是让制造企业本身做呆板进修的事情。咱们的许多事情都是为了软件的便捷利用。经由过程对于呆板进修的开发迭代，咱们为客户提供了怎样于平台上练习模子，以和怎样改良数据标志问题来提高模子的机能等许多建议。咱们的练习及软件于此历程中会一直阐扬作用，直到将练习好的模子部署到工场的边沿装备上。

IEEE：那您怎样应答不停变化的需求？假如产物发生变化或者是工场的照明前提发生变化，于如许的环境下，模子能顺应吗？

吴恩达：这要因制造商而异。于许多环境下都有数据偏移，但也有一些制造商已经经于统一出产线上运行了20年，险些没有甚么变化，以是于将来5年内他们也不指望发生变化，情况不变工作就变患上更易了。对于在其他制造商，于呈现很年夜的数据偏移问题时咱们也会提供东西举行标志。我发明使制造业的客户可以或许自立改正数据、从头练习及更新模子真的很主要。好比此刻是美国的凌晨3点，一旦呈现变化，我但愿他们可以或许自行当即调解进修算法，以维持运营。

于消费类软件互联网中，咱们可以练习少数呆板进修模子来为10亿用户办事。而于制造业，你可能有10,000 制造约定制10,000 小我私家工智能模子。所面对的挑战是，Landing AI 于不招聘10,000名呆板进修专家的环境下，怎样做到这一点？

IEEE：以是为了提高质量，必需授权用户本身举行模子练习？

吴恩达：是的，彻底准确！这是一个全行业的AI问题，不单单是于制造业。例如于医疗范畴，每一家病院电子病历的格局略有差别，怎样练习定制本身的AI模子？指望每一家病院的IT职员从头发现神经收集架构是不实际的。是以，必需构建东西，经由过程为用户提供东西来设计数据及表达他们的范畴常识，从而使他们可以或许构建本身的模子。

IEEE：您还有有甚么需要读者相识的么？

吴恩达：已往十年，人工智能最年夜的改变是深度进修，而接下来的十年，我认为会转向以数据为中央。跟着神经收集架构的成熟，对于在很多现实运用来讲，瓶颈将会存于在“怎样获取、开发所需要的数据”。以数据为中央的AI于社区拥有巨年夜的能量及潜力，我但愿能有更多的研究职员插手！