米兰·(milan)中国官方网站-未来十年，AI 语音识别将朝着这五个方向发展

作者：米兰·(milan)文化更新时间：2026-03-19 16:11:24 点击数：

导语：多语言ASR模子、富厚的尺度化输出对于象、面向所有人的年夜范围 ASR、人机协同，卖力任的 ASR将是将来AI 语音霸占范畴。

作者 | Migüel Jetté

编译 | bluemin

编纂 | 陈彩娴

于已往的两年中，主动语音辨认（Automatic Speech Recognition, ASR）于商用上取患了主要的成长，此中一个权衡指标就是：多个彻底基在神经收集的企业级 ASR 模子乐成上市，如 Alexa、Rev、AssemblyAI、ASAPP等。2016年，微软研究院发表了一篇文章，公布他们的模子于已经有25年汗青的“Switchboard”数据集上，到达了人类程度（经由过程单词过错率来权衡）。ASR 的正确性仍于不停提高，于更多的数据集及用例中逐渐到达人类程度。

未来十年，AI 语音识别将朝着这五个方向发展

图源：Awni Hannun 的博文 “Speech Recognition is not Solved”

跟着 ASR 技能的辨认正确度年夜幅晋升，同时运用场景愈来愈富厚，咱们信赖：此刻还有不是 ASR 商用的巅峰，该范畴的研究与市场运用还有有待掘客。咱们估计将来十年 AI 语音的相干研究及贸易体系将重点霸占如下五个范畴：

1多语言ASR模子“于将来十年，咱们将于出产情况中部署真实的多语言模子，使开发职员可以或许构建任何人都能理解肆意语言的运用步伐，从而真正向全球开释语音辨认的气力。”

未来十年，AI 语音识别将朝着这五个方向发展

图源：Alexis Conneau 等人于 2020 年发表的“Unsupervised cross-lingual representation learning for speech recognition”论文如今的商用 ASR 模子重要利用英语数据集举行练习，是以对于英语输入具备更高的正确性。因为数据可用性及市场需求，学术界及工业界对于英语的持久存眷度更高。法语、西班牙语、葡萄牙语及德语等贸易风行语言的辨认正确度虽然也较为合理，但显然存于一个练习数占有限且ASR输出质量相对于较低的语言长尾。此外，年夜大都贸易体系都是基在单一语言，这没法合用在很多社会独有的多语言场景。多语言可以采用违靠违语言的情势，例如双语国度的媒体节目。亚马逊近来推出了一款集针言言辨认（LID）及ASR的产物，于处置惩罚这一问题上取患了长足前进。比拟之下，跨语言（也称为语码转换）是小我私家利用的一种语言体系，该体系可以将两种语言的单词及语法联合于统一个句子中。这是一个学术界继承取患上有趣进展的范畴。正如天然语言处置惩罚范畴采用多语言要领同样，咱们将会看到ASR于将来十年也会效仿。跟着咱们进修怎样使用新兴的端到端技能，咱们将会练习可以于多种语言之间举行迁徙进修的年夜范围多语言模子。Meta的XLS-R就是一个很好的例子：于一个演示中，体验者可以说21种语言中的任何一种，而不需要指定某种语言，模子终极城市翻译成英语。经由过程理解及运用语言之间的相似性，这些更智能的ASR体系将为低资源语言及混淆语言用例提供高质量的ASR可用性，并将实现贸易级另外运用。

2富厚的尺度化输出对于象“于将来十年，咱们信赖贸易 ASR 体系将输出更富厚的转录对于象，此中包罗的内容将不止简朴的单词。此外，咱们估计，这类更富厚的输出将获得W3C等尺度构造的承认，以便所有API都将返回近似组织的输出。这将进一步开释世界上每一个人的语音运用潜力。”只管国度尺度技能研究院（NIST）于摸索“富厚转录”方面有着悠长传统，但于将其纳入ASR输出的尺度化及可扩大格局方面仍是浅尝辄止。富厚转录的观点最初触及年夜写、标点及日志化，但于某种水平上扩大到措辞人脚色及一系列非语言性言语事务。预期的立异包括转录来自差别措辞者、差别情绪及其他副语言特性的堆叠语音，以和一系列非语言甚至非人类的语音场景及事务，还有可以转录基在文本或者语言多样性的信息。Tanaka等人描绘了一个用户可能但愿于差别富厚水平的转录选项中举行选择的场景，显然，咱们猜测的附加信息的数目及性子是可指定的，这取决在下流运用。传统的ASR体系可以或许于辨认白话单词的历程中天生多个假定的网格，这些已经被证实于人工辅助转录、白话对于话体系及信息检索中年夜有裨益。于富厚的输出格局中包罗n-best信息将鼓动勉励更多用户利用ASR体系，从而改善用户体验。虽然今朝不存于用在构建或者存储语音解码历程中当宿世成或者可能天生的附加信息的尺度，但CallMiner的开放语音转录尺度（OVTS）朝这个标的目的迈出了坚实的一步，使企业易在摸索及选择多个ASR供给商。咱们猜测，于将来，ASR体系将以尺度格局孕育发生更富厚的输出，从而撑持更强盛的下流运用步伐。例如，ASR体系可能会输出全数可能网格，而且运用步伐可以于编纂转录内容时利用这些附加数据举行智能主动转录。近似地，包括附加元数据（如检测到的区域方言、口音、情况噪声或者情绪）的ASR转录可以实现更强盛的搜刮运用。

3面向所有人的年夜范围 ASR“于这十年中，年夜范围的 ASR（即私有化、可承担、靠得住及快速）将成为每一个人一样平常糊口的一部门。这些体系将可以或许搜刮视频，索引咱们介入的所有媒体内容，并使世界各地的听力受损消费者可以或许拜候每一个视频。ASR将是对于每个音频及视频都实现可拜候及可操作的要害。” 未来十年，AI 语音识别将朝着这五个方向发展

咱们可能都于年夜量利用音视频软件：播客、社交媒体流、于线视频、及时群聊、Zoom集会等等。然而相干的内容现实上很少被转录。如今，内容转录已经经成为ASR API的最年夜市场之一，并将于将来十年呈指数级增加，尤其是思量到它们正确性及经济性。话虽云云，ASR转录今朝仅用在特定运用步伐（播送视频、某些集会及播客等）。是以，很多人没法拜候此媒体内容，而且于播送或者勾当竣事后很难找到相干信息。于将来，这类环境将会转变。正如Matt Thompson于2010年猜测的那样，于某种水平上，ASR价格廉价并被广泛普和，以至在咱们将体验到他所谓的“演讲性”。咱们估计，将来险些所有音频及视频内容都将被转录，而且可当即拜候、可存储、可年夜范围搜刮。但ASR的成长不会到此阻滞，咱们还有但愿这些内容具备可操作性。咱们但愿消费或者介入的每一个音视频会提供分外的上下文，例如从播客或者集会中主动天生的看法，或者视频中要害时刻的主动总结等等，咱们但愿NLP体系可以将上述处置惩罚一样平常化。

4人机协同“到本世纪末，咱们将拥有不停成长的ASR体系，它就像一个活的有机体，于人类的帮忙或者自我监视下不停进修。这些体系将从实际世界中的差别渠道进修，以及时而非异步的方式理解新单词及语言变体，自我调试并主动监控差别的用法。” 未来十年，AI 语音识别将朝着这五个方向发展

跟着ASR成为主流并涵盖愈来愈多的用例，人机协同将阐扬要害作用。ASR模子的练习很好地表现了这一点。如今，开源数据集及预练习模子降低了ASR供给商的准入门坎。然而，练习历程仍旧相称简朴：网络数据、解释数据、练习模子、评估成果、改良模子。但这是一个迟缓的历程，而且于很多环境下，因为调解坚苦或者数据不足而轻易堕落。Garnerin等人不雅察到，元数据缺掉及跨语料库暗示的纷歧致性使患上于ASR机能方面难以包管划一的正确性，这也是Reid及Walker于开发元数据尺度时试图解决的问题。于将来，人类将经由过程智能手腕高效地监视ASR练习，于加快呆板进修方面阐扬日趋主要的作用。人于回路要领将人工审查员置在呆板进修/反馈轮回中，可以对于模子成果举行连续审查及调解。这会使呆板进修更快、更高效，从而孕育发生更高质量的输出。本年早些时辰，咱们会商了ASR的改良怎样使Rev的人工转录员（称为“Revvers”）可以或许对于ASR草案举行后期编纂，从而提高事情效率。Revver的转录可以直接输入到改良的ASR模子中，形成良性轮回。对于在ASR，人类语言专家仍旧不成或者缺的一个范畴是反向文本规范化（ITN），他们将辨认的字符串（如“five dollars”）转换为预期的书面情势（如“美金5”）。Pusateri等人提出了一种利用“手工语法及统计模子”的混淆要领，Zhang等人继承沿用这些思绪，用人工建造的FST约束RNN。

5卖力任的 ASR“与所有人工智能体系同样，将来的ASR体系将对峙更严酷的人工智能伦理原则，以便体系平等看待所有人，可注释性水平更高、对于其决议计划卖力、并尊敬用户和其数据的隐私。” 未来十年，AI 语音识别将朝着这五个方向发展

将来的ASR体系将遵照人工智能伦理的四项原则：公允性、可注释性、尊敬隐私及问责制。公允性：不管措辞者的配景、社会经济职位地方或者其他特性怎样，公允的ASR体系都能辨认语音。值患上留意的是，构建如许的体系需要辨认并削减咱们的模子及练习数据中的误差。幸运的是，当局、非当局构造及企业已经经着手创立辨认及减轻成见的基础举措措施。可注释性：ASR体系将再也不是“黑盒”：它们将按照要求对于数据网络与阐发、模子机能与输出历程举行注释。这类附加的透明度要求可以对于模子练习及机能举行更好的报酬监视。与Gerlings等人同样，咱们从一系列好处相干者（包括研究职员、开发职员、客户，以和Rev案例中的转录学家）的角度来对待可注释性。研究职员可能想知道输堕落误文本的缘故原由，以便减缓问题；而转录学家可能需要一些证据来证实ASR为何会这么认为，以帮忙他们评估其有用性，尤其是于嘈杂的环境下，ASR可能比人“听”患上更好。Weitz等人于音频要害词辨认的配景下，为终端用户实现可注释性采纳了主要的开端办法。Laguarta及Subirana已经将临床大夫引导的注释纳入用在阿尔茨海默症检测的语音生物标志体系。尊敬隐私：按照各类美国及国际法令，“语音”被视为“小我私家数据”，是以，语音记载的网络及处置惩罚遭到严酷的小我私家隐私掩护。于Rev，咱们已经经提供了数据安全及节制功效，将来的ASR体系将进一步尊敬用户数据的隐私及模子的隐私。于很多环境下，这极可能触及将ASR模子推向边沿（于装备或者阅读器上）。语音隐私挑战正于鞭策这一范畴的研究，很多司法统领区，如欧盟，已经经开展立法事情。隐私掩护呆板进修范畴有望引起各人对于技能这一要害方面的器重，使其可以或许被公家广泛接管及信托。问责制：咱们将对于ASR体系举行监控，以确保其遵守前三项原则。反过来需要投入资源及基础举措措施，以设计及开发须要的监测体系，并针对换查成果采纳办法。部署ASR体系的公司将对于其技能的利用卖力，并为遵守ASR伦理原则做出详细努力。值患上一提的是，作为ASR体系的设计者、维护者及消费者，人类将卖力实行及履行这些原则——这是人机协同的又一个示例。参考链接：https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/更多内容，点击下方存眷：

扫码添加 AI 科技评论微旌旗灯号，投稿进群：

未来十年，AI 语音识别将朝着这五个方向发展