米兰·(milan)中国官方网站-未来十年,AI 语音识别将朝着这五个方向发展
作者:米兰·(milan)文化
更新时间:2026-03-19 16:11:24
点击数:
导语:多语言ASR模子、富厚的尺度化输出对于象、面向所有人的年夜范围 ASR、人机协同,卖力任的 ASR将是将来AI 语音霸占范畴。
作者 | Migüel Jetté
编译 | bluemin编纂 | 陈彩娴
于已往的两年中,主动语音辨认(Automatic Speech Recognition, ASR)于商用上取患了主要的成长,此中一个权衡指标就是:多个彻底基在神经收集的企业级 ASR 模子乐成上市,如 Alexa、Rev、AssemblyAI、ASAPP等。2016年,微软研究院发表了一篇文章,公布他们的模子于已经有25年汗青的“Switchboard”数据集上,到达了人类程度(经由过程单词过错率来权衡)。ASR 的正确性仍于不停提高,于更多的数据集及用例中逐渐到达人类程度。
图源:Awni Hannun 的博文 “Speech Recognition is not Solved”
跟着 ASR 技能的辨认正确度年夜幅晋升,同时运用场景愈来愈富厚,咱们信赖:此刻还有不是 ASR 商用的巅峰,该范畴的研究与市场运用还有有待掘客。咱们估计将来十年 AI 语音的相干研究及贸易体系将重点霸占如下五个范畴 :1多语言ASR模子“于将来十年,咱们将于出产情况中部署真实的多语言模子,使开发职员可以或许构建任何人都能理解肆意语言的运用步伐,从而真正向全球开释语音辨认的气力。”

咱们可能都于年夜量利用音视频软件:播客、社交媒体流、于线视频、及时群聊、Zoom集会等等。然而相干的内容现实上很少被转录。如今,内容转录已经经成为ASR API的最年夜市场之一,并将于将来十年呈指数级增加,尤其是思量到它们正确性及经济性。话虽云云,ASR转录今朝仅用在特定运用步伐(播送视频、某些集会及播客等)。是以,很多人没法拜候此媒体内容,而且于播送或者勾当竣事后很难找到相干信息。于将来,这类环境将会转变。正如Matt Thompson于2010年猜测的那样,于某种水平上,ASR价格廉价并被广泛普和,以至在咱们将体验到他所谓的“演讲性”。咱们估计,将来险些所有音频及视频内容都将被转录,而且可当即拜候、可存储、可年夜范围搜刮。但ASR的成长不会到此阻滞,咱们还有但愿这些内容具备可操作性。咱们但愿消费或者介入的每一个音视频会提供分外的上下文,例如从播客或者集会中主动天生的看法,或者视频中要害时刻的主动总结等等,咱们但愿NLP体系可以将上述处置惩罚一样平常化。4人机协同“到本世纪末,咱们将拥有不停成长的ASR体系,它就像一个活的有机体,于人类的帮忙或者自我监视下不停进修。这些体系将从实际世界中的差别渠道进修, 以及时而非异步的方式理解新单词及语言变体,自我调试并主动监控差别的用法。”
跟着ASR成为主流并涵盖愈来愈多的用例,人机协同将阐扬要害作用。ASR模子的练习很好地表现了这一点。如今,开源数据集及预练习模子降低了ASR供给商的准入门坎。然而,练习历程仍旧相称简朴:网络数据、解释数据、练习模子、评估成果、改良模子。但这是一个迟缓的历程,而且于很多环境下,因为调解坚苦或者数据不足而轻易堕落。Garnerin等人不雅察到,元数据缺掉及跨语料库暗示的纷歧致性使患上于ASR机能方面难以包管划一的正确性,这也是Reid及Walker于开发元数据尺度时试图解决的问题。于将来,人类将经由过程智能手腕高效地监视ASR练习,于加快呆板进修方面阐扬日趋主要的作用。人于回路要领将人工审查员置在呆板进修/反馈轮回中,可以对于模子成果举行连续审查及调解。这会使呆板进修更快、更高效,从而孕育发生更高质量的输出。本年早些时辰,咱们会商了ASR的改良怎样使Rev的人工转录员(称为“Revvers”)可以或许对于ASR草案举行后期编纂,从而提高事情效率。Revver的转录可以直接输入到改良的ASR模子中,形成良性轮回。对于在ASR,人类语言专家仍旧不成或者缺的一个范畴是反向文本规范化(ITN),他们将辨认的字符串(如“five dollars”)转换为预期的书面情势(如“美金5”)。Pusateri等人提出了一种利用“手工语法及统计模子”的混淆要领,Zhang等人继承沿用这些思绪,用人工建造的FST约束RNN。5卖力任的 ASR“与所有人工智能体系同样,将来的ASR体系将对峙更严酷的人工智能伦理原则,以便体系平等看待所有人,可注释性水平更高、对于其决议计划卖力、并尊敬用户和其数据的隐私。”
将来的ASR体系将遵照人工智能伦理的四项原则:公允性、可注释性、尊敬隐私及问责制。公允性:不管措辞者的配景、社会经济职位地方或者其他特性怎样,公允的ASR体系都能辨认语音。值患上留意的是,构建如许的体系需要辨认并削减咱们的模子及练习数据中的误差。幸运的是,当局、非当局构造及企业已经经着手创立辨认及减轻成见的基础举措措施。可注释性:ASR体系将再也不是“黑盒”:它们将按照要求对于数据网络与阐发、模子机能与输出历程举行注释。这类附加的透明度要求可以对于模子练习及机能举行更好的报酬监视。与Gerlings等人同样,咱们从一系列好处相干者(包括研究职员、开发职员、客户,以和Rev案例中的转录学家)的角度来对待可注释性。研究职员可能想知道输堕落误文本的缘故原由,以便减缓问题;而转录学家可能需要一些证据来证实ASR为何会这么认为,以帮忙他们评估其有用性,尤其是于嘈杂的环境下,ASR可能比人“听”患上更好。Weitz等人于音频要害词辨认的配景下,为终端用户实现可注释性采纳了主要的开端办法。Laguarta及Subirana已经将临床大夫引导的注释纳入用在阿尔茨海默症检测的语音生物标志体系。尊敬隐私:按照各类美国及国际法令,“语音”被视为“小我私家数据”,是以,语音记载的网络及处置惩罚遭到严酷的小我私家隐私掩护。于Rev,咱们已经经提供了数据安全及节制功效,将来的ASR体系将进一步尊敬用户数据的隐私及模子的隐私。于很多环境下,这极可能触及将ASR模子推向边沿(于装备或者阅读器上)。语音隐私挑战正于鞭策这一范畴的研究,很多司法统领区,如欧盟,已经经开展立法事情。隐私掩护呆板进修范畴有望引起各人对于技能这一要害方面的器重,使其可以或许被公家广泛接管及信托。问责制:咱们将对于ASR体系举行监控,以确保其遵守前三项原则。反过来需要投入资源及基础举措措施,以设计及开发须要的监测体系,并针对换查成果采纳办法。部署ASR体系的公司将对于其技能的利用卖力,并为遵守ASR伦理原则做出详细努力。值患上一提的是,作为ASR体系的设计者、维护者及消费者,人类将卖力实行及履行这些原则——这是人机协同的又一个示例。参考链接:https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:


雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





