米兰·(milan)中国官方网站-谷歌研究员 Sebastian Ruber:线下参加 ACL 2022,我可太开心了!
导语:语言多样性及多模态、提醒进修、AI 的下一个热门、语言及智能的黑物资…google研究员带你混淆式体验ACL2022。

作者 | Sebastian Ruder
编译 | Antonio
编纂 | 陈彩娴本年 ACL 线下召开,google研究员Sebastian Ruber也到现场参会了!
ACL 2022的举办所在是都柏林,Sebastian Ruber位在google伦敦,已往不远。ACL之行竣事后,他兴趣冲冲地写下了他的参会感触感染,分享了他对于几个学术动态的存眷,包括:1)语言多样性及多模态;2)提醒进修;3)AI 的下一个热门;4)他于年夜会中最喜欢的文章;5)语言及智能的黑物资;6)混淆式小我私家体验。
如下AI科技评论对于他的分享做了不转变原意的收拾与编纂:
1语言多样性及多模态
图注:ACL 2022 主题演讲小组会商撑持语言多样性的小构成员和其语言
ACL 2022 有一个主题为“语言多样性:从低资源到濒危语言”的主题赛道。除了了赛道上的优异论文,语言多样性也渗入到了集会的其他部门。史蒂文·伯德(Steven Bird)主持了一个关在语言多样性的小组会商,此中研究职员会媾和研究代表性不足(under-represented)的语言。小构成员分享了他们的经验并会商了语言之间权利动态等话题。他们还有提出了切实可行的建议,以鼓动勉励于此类语言上开展更多事情:创立数据资源;为资源匮乏及濒危语言的事情成立集会轨道;并鼓动勉励研究职员将他们的体系运用在低资源语言数据。他们还有提到了一个踊跃的前进,即研究职员愈来愈意想到高质量数据集的价值。整体而言,小构成员夸大,利用此类语言需要尊敬——对于措辞者、文化及语言自己。
濒危语言也是 Compute-EL钻研会的重点。于颁奖仪式上,最好语言洞察论文提出了KinyaBERT,这是一种使用形态阐发器为基尼亚卢旺达语(Kinyarwanda)预练习的模子。而最好主题论文为三种加拿年夜土著语言开发了语音合成模子。后者提供了一个多模态信息【译者注:此处的多模态是指语言的差别形态的信息,例如语音、文字、手语等等】怎样有利在语言多样性的一个例子。
最好语言洞察论文:KinyaBERT: a Morphology-aware Kinyarwanda Language Model地址:https://aclanthology.org/2022.acl-long.367.pdf

其他多模态论文使用德律风暗示来提高斯瓦希里语及基尼亚卢旺达语[1]中的实体辨认使命的机能。对于在低资源的文本到语音,也有事情[2]利用发音特性,例如位置(例如,舌头的正面)及种别(例如,浊音),这些特性可以更好地泛化到练习集中没有见到过的音素。一些事情还有摸索了新的多模态运用步伐,例如检测美国手语中的手指拼写[3]或者为腔调语言翻译歌曲[4]。
多语言多模态钻研会于MaRVL数据集上主持了一项关在多语言视觉基础推理的同享使命。看到这类多语言多模态要领的呈现尤其使人鼓动,由于它比前一年的 ACL 有所改良,此中多模态要领重要处置惩罚英语。
以后作者也受邀做了关在“将NLP体系拓展到下1000种语言”的口头报告请示。

图注:Sebastian Ruder于ACL 2022上现场做的报告请示
于受邀演讲中,作者除了了先容将NLP 体系扩大到下1000 种语言的三个其他挑战,即计较效率、真实语料上的评估以和语言变种(如方言)以外,他还有夸大了多模态的主要性。多模态也是由Mona Diab公布的ACL 2022D I尤其发起“60-60经由过程当地化实现全世界化”的焦点。该规划的重点是使计较语言学(CL)的研究可以或许同时被60 种语言运用,而且包括文本、语音、手语翻译、隐蔽式字幕及配音于内的所有模态。该规划的另外一个有效方面是收拾最多见的CL术语并将其翻译成 60 种语言,而缺少正确的科学术语表达对于很多语言于CL的成长造成为了障碍。
代表性不足的语言凡是险些没有可用的文本数据。两个教程偏重在将模子运用在此类低资源语言种。(1)利用有限文本数据举行进修的教程会商了数据加强、半监视进修及多语言运用,而(2)利用预练习语言模子的零样本及少样本NLP教程涵盖了提醒、上下文进修、基在梯度的LM使命迁徙等。

教程链接:https://github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial

教程链接:https://github.com/allenai/acl2022-zerofewshot-tutorial
怎样于差别语言中以最好方式暗示token是一个悬而未决的问题。一些事情采用了几种新要领来降服这一挑战。最好语言洞察论文KinyaBERT使用了形态学分词要领。近似地,霍夫曼等人[5]提出了一种要领,旨于于标志化(tokenization)历程中保留单词的形态布局。该算法经由过程确定辞汇表中最长的子字符串来标志一个单词,然后于残剩的字符串上递归。

图注:KinyaBERT模子布局
Patil等人[6]并无选择于多语言预练习数据中频仍呈现的子词(这会使模子倾向在高资源语言),而是提出一种更倾向那些多种语言同享的子词的要领。CANINE[7]及 ByT5[8]都彻底取缔了标志化,直接对于字节举行操作。
凡是环境下,语言不仅于言语情势上有所差别,并且于文化上也有差异,此中包括措辞者的配合常识、价值不雅及方针等。赫什科维奇等人[9]对于——甚么对于在跨文化NLP的很主要——这一问题提供了一个很好的概述。举例来讲,考查一种特定文化下及时间有关的语言表达,例如清晨,于差别语言中它可能指的是差别时间。

图注:差别文化语境下可能会变化的四个维度:言语情势、方针价值、共有常识及偏重转达的内容
除了了上述提到的文章,作者还有罗列了他本身比力喜欢的文章:
面向非洲语言的以非洲为中央的 NLP:咱们于哪里以和咱们可以去哪里。
文章会商了NLP对于非洲语言的挑战,并就怎样应答这些挑战提出了切实可行的建议。它凸起了语言征象(语调、元音及谐及持续动词构建)及非洲年夜陆的其他挑战(识字率低、正字法不尺度化、官方语境中缺少语言利用)。

文章链接:https://aclanthology.org/2022.acl-long.265/
质量概览:收集爬取的多语言数据集的审查。
这篇论文刚出书时,作者就写过它。文章对于涵盖 70 种语言的年夜范围多语言数据集举行了细心审核,并发明了很多之前未被留意到的数据质量问题。它夸大了很多低资源语言数据集质量低下,一些数据集的标志甚至彻底是过错的。

文章链接:https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00447/109285/Quality-at-a-Glance-An-Audit-of-Web-Crawled
多语言模子零样天性能猜测的多使命进修。
咱们想知道模子的机能怎样假如将它迁徙到一种新语言,这可以有助在奉告咱们于新语言使命中需要几多练习数据。文章经由过程结合进修猜测跨多个使命的机能,使机能猜测越发稳健。这还有可以阐发于所有使命上,影响零样本迁徙的特性。

文章链接:https://aclanthology.org/2022.acl-long.374/
而如下则是作者介入的及这个范畴相干的论文:
一个国度,700多种语言:NLP对于在印度尼西亚的代表性不足语言及方言的挑战。
文章提供了对于在印度尼西亚中的700多种语言于NLP上的挑战的概览(印度尼西亚是全球语言多样性方面第二多的国度)。这此中包罗各类各样的方言、措辞气势派头的差异、彼此混淆以和正字法的变化。作者们做出了实用性的建议,包括方言文本化,并将信息录入到数据库中。

文章链接:https://aclanthology.org/2022.acl-long.500/
经由过程辞汇方面的顺应手腕,将预练习模子拓展到上千种更多的语言。
作者阐发了差别的使用双语预料来为低资源语言练习合成数据的计谋,并阐发了怎样把合成的数据及现有的数据联合(假如有的话)。文章成果发明,这要比直接翻译合成的数据效果要好(针对于这些低资源语言的神经翻译模子也往往做的欠好)。

文章链接:https://aclanthology.org/2022.acl-long.61/
NLP研究的单维误差:朝向一个多维NLP研究的摸索。
这是一篇综述检讨性的文章,作者们界说一个称作“单一角落”(Square one)的NLP原型研究趋向,并经由过程查验461篇ACL‘21的做了口头报告请示的论文,发明此刻的NLP只管已经经逾越了这一趋向,却还有是存于研究维度单一的问题。他们发明险些70%的文章仅仅利用英语举行评估,险些40%的文章仅仅评估机能。仅仅6.3%的文章评估公道性、误差等标的目的,以和仅6.1%的文章是“多维度”的,也就是他们于2个和以上的维度上都做了阐发。

ACL’21文章研究内容的分类可视化,堆积征象注解研究的单一性
论文地址:https://aclanthology.org/2022.findings-acl.184/
2提醒进修(Prompt)提醒进修是另外一个遭到广泛存眷的范畴。最佳的演示样例是由清华年夜学开发的OpenPrompt,这是一个用在提醒进修的开源框架,可以轻松界说模板及语言器(verbalizer),并将它们与预练习好的模子相适配。

图注:OpenPrompt中与prompt相干的组件
一个常见的研究思绪是将外部常识纳入进修历程中。Shengding Hu[10]等人建议用常识库中的单词扩大语言器。Jiacheng Liu[11]等人先利用语言模子于极少量样本的设置中天生相干的常识陈述,然后利用第二个语言模子往返答知识性问题。咱们还有可以经由过程修改练习数据来整合分外的常识,例如,经由过程于实体以后插入元数据字符(例如,实体类型及描写)[12]。
其他论文则提出了一些合适在特定运用的提醒。Reif等人[13]提出一个可以处置惩罚带有差别气势派头例子的模子,用在气势派头迁徙;而 Tabasi 等人[14]利用语义相似性使命的相似性函数获得非凡符号[MASK]标志的词嵌入。Narayan等人[15]则经由过程猜测方针择要以前的实体链来指导择要模子(例如,“[ENTITYCHAIN] Frozen | Disney“),以下图所示。Schick等人[16]用包罗某个属性的问题提醒模子(例如,“上述文本是否包罗威逼?”)以诊断模子天生的文本是否具备进犯性。Ben-David等人[17]天生域名及域相干特性作为域适配的提醒。

图注:Narayan等人[16]则经由过程猜测方针择要以前的实体链来指导择要模子
于及视觉相干的多模态设定中举行提醒进修也遭到了一些存眷。Jin等人[18]阐发了多样的提醒于少样本进修设定中的影响。Haoyu Song等人[19]利用CLIP切磋了视觉-语言范畴下的小样本进修。他们利用T5模子按照视觉问答的问题天生提醒,并利用语言模子过滤失不成能的谜底。然后将提醒与方针图象配对于,并利用 CLIP计较图象-文本对于齐分数。以下图所示。

图注:Haoyu Song等人[19]利用T5模子孕育发生prompt,并用CLIP获得图象文本匹配水平
末了,有几篇论文试图更好地舆解提醒进修。Mishra等人[20]摸索从头构建指令的差别要领,例如将繁杂使命分化为几个更简朴的使命或者逐条列出指令。Lu等人[21]阐发模子对于少样本挨次的敏感性。因为没有分外的开发数据就没法确定最好摆列,是以他们利用语言模子自己天生合成开发集,并经由过程熵确定最好示例挨次。
如下论文是与作者互助的与少样本进修有关的事情:
FewNLU:对于少样本天然语言理解的SOTA要领举行基准测试。
文章引入了一个评估框架,使小样本评估越发靠得住,包括新的数据拆分计谋。咱们于这个框架下从头评估了开始进的小样本进修要领。咱们不雅察到某些要领的绝对于及相对于机能被高估了,而且某些要领的改良会跟着更年夜的预练习模子而降低,等等。

文章链接:https://aclanthology.org/2022.acl-long.38/
预练习语言模子中的影象与泛化。
咱们研究开始进的预练习模子的影象及泛化举动。咱们不雅察到当前模子甚至可以抵挡高度的标签噪声,而且练习可以分为三个差别的阶段。咱们还有不雅察到,预练习模子的遗忘比非预练习模子要少患上多。末了,咱们提出了一个扩大,以使模子对于低频模式更具鲁棒性。

文章链接:https://aclanthology.org/2022.acl-long.521/
3下一个年夜热门
图注:「下一个年夜热门」(Next Big Ideas)漫谈现场
作者专门提到了他最喜欢的集会之一是Next Big Ideas,这是集会构造者创始的一种新情势。该集会的特点是高级研究职员对于主要的研究标的目的提出了有见识的见解。
对于作者而言,本次集会中凸起的两个主题是:布局(structure)及模块化(modularity)。研究职员夸大需要提取及暗示布局化信息,例如瓜葛、事务及叙述。他们还有夸大了思索这些是怎样暗示的主要性——经由过程人类界说及适量模式的设计。很多主题需要处置惩罚多个彼此依靠的使命,不管是故事理解、推理还有是模式进修。这将需要多个模子或者组件彼此毗连。(假如读者想相识有关模块化要领的更多信息,作者将于EMNLP 2022上先容一个何NLP 模子的模块化及参数高效微调的教程。)总的来讲,这些研究提案勾画了一个使人信服的愿景,即 NLP 模子以布局化、多智能体的方式提取、暗示及推理繁杂的常识。
Heng Ji 于该集会最先时热忱地呼吁NLP模子有更多的布局暗示。她夸大(从当前的句子级及文档级信息提取)转向语料库级信息提取,并留意到从其他类型的文本,例如科学文章以和低资源语言,中提取瓜葛及布局。于多模态设定下,图象及视频可以转换为视觉token,以后构造成布局,并利用布局化模板举行描写。提取的布局可以进一步泛化为模式及事务模式。咱们可以经由过程将布局嵌入到预练习模子中来暗示布局,经由过程图神经收集或者经由过程全局约束对于其举行编码。
Mirella Lapata 会商了故事,以和咱们为何应该存眷它们。故事有情势、布局及重复呈现的主题,这是天然语言理解(NLU)的焦点。它们还有与很多现实运用相干,例如问答及择要。为了处置惩罚故事,咱们需要举行半监视进修及练习模子,以即可以处置惩罚很长的输入或者者多个彼此依靠的使命(例如建模脚色、事务、时间性等)。这需要模块化的模子以和于闭环包括人类协作。
Dan Roth 夸大了基在NLU做出决议计划推理的主要性。鉴在推理历程的多样性,这需要多个彼此依靠的模子及确定一个与哪些模块相干的计划历程。咱们还有需要可以或许推理时间及其他物理量。为此,咱们需要可以或许提取、上下文化(contextualize)及征采相干信息,并为推理历程提供注释。为了监视模子,咱们可使用附带监视,例如可比力的文本。
Thamar Solorio 会商了怎样为世界上一半的多语言人口及常常利用语言转换的人口提供办事。比拟之下,当前的语言技能重要迎合单语利用者。凡是利用语言转换的非正式情况变患上愈来愈主要,例如于谈天呆板人、语音助手及社交媒体的配景下。她指出了诸如资源有限、对于话数据中的“噪音”以和音译数据问题等挑战。咱们还有需要确定相干用途,由于语言转换并不是于所有 NLP 场景中都相干。终极,“咱们需要可以或许代表人们利用语言的现实方式的语言模子”。
Marco Baroni 专注在模块化。他提出了一个研究愿景,即一个冻结的预练习收集经由过程自立地彼此交互来配合解决新使命。他建议模子应该经由过程一个易在推广的进修接口和谈举行通讯。
Eduard Hovy 催促咱们从头发明对于表征及常识的需求。当常识很少或者从未呈现于练习数据中时,例如隐式常识,模子不会主动进修到它。为了弥补这些空缺,咱们需要界说一组咱们体贴的人类方针以和捕获未说或者将要说的内容的模式。这需要将进修的流程成长为一组彼此联系关系的流程,例如于年夜风行配景下患者、风行病学家及病原体的流程。一样,为了捕获群体中人们的脚色,咱们需要报酬的界说及引导。整体而言,他鼓动勉励社区构建可以被模子进修到的拓扑布局。
末了,李航夸大了符号推理的须要性。他为NLU提出了一种神经符号架构,该架构联合了经由过程预练习模子举行的类比推理及经由过程符号组件举行的逻辑推理。
除了了 Next Big Ideas集会外,集会还有包括初期职业研究职员的演讲。作者有幸与Eunsol Choi、Diyi Yang、Ryan Cotterell 及 Swabha Swayamdipta等优异的年青研究职员一路讲话。他但愿将来的集会将继承采用这些格局,并与其别人一路举行实验,由于它们带来了新的视角并为研究提供了更广漠的视线。
4语言及智能的暗物资
图注:Yejin Choi传授推测ACL 2082多是甚么样的
Yejin Choi传授发表了一个鼓动人心的主题演讲。除了此以外,这是我看到的第一个利用DALL-E 2来绘制幻灯片的演讲。她经由过程类比物理学夸大了 NLP 的三个主要研究范畴:恍惚性、推理及隐含信息。
于现代物理学中,更深切的理解往往会致使恍惚性增长(例如,拜见薛定谔的猫或者波粒二象性)。Yejin一样鼓动勉励ACL社区接管恍惚性。已往,研究者往往不去做未到达高度解释者间一致性的使命;一样,于传统的感情阐发中,中性类常常被抛弃。理解不克不及仅仅局限在简朴的种别。带有解释者定见成见的语言模子及含糊其词的例子提高了泛化能力。
与时空的观点相似,Yejin认为语言、常识及推理也不是自力的范畴,而是存于在一个持续同一体上。maieutic提醒等推理要领[22]答应咱们经由过程递归天生注释来研究模子常识的持续性。
末了,近似在暗物资于现代物理学中的焦点作用,NLP 将来的研究应该存眷语言的“暗物资”,即世界运作的潜法则,它影响人们利用语言的方式。咱们应该立志测验考试教给模子,例如默许法则、价值不雅及方针。
Yejin坦率地总结了致使她乐成的因素:谦善、向别人进修、冒险;但也很幸运并于一个包涵的情况中事情。
5关在本次集会的体验
图注:都柏林集会中央,ACL 2022 的举办地
作者直言他很是喜欢面临面的集会体验。集会时期有严酷的戴口罩要求。独一的问题是于全领会议及主题演讲中呈现了一些技能问题。
另外一方面,作者也发明很难将面临面的集会体验与虚拟集会体验相协调。虚拟的海报集会往往与早饭或者晚饭时间堆叠,这使患上到场集会变患上坚苦。据我所知,很多虚拟海报集会的不雅众险些是空的。看来咱们需要从头思量怎样于混淆情况中举行虚拟海报集会。作为替换方案,于rocket.chat 或者近似平台中创立异步的每一张贴者谈天室可能更有用,而且可以或许设置即兴视频通话以举行更深切的对于话。
作者对于在有合理数目的虚拟介入者的口头陈诉及钻研会的体验也很喜欢。他也尤其感激可以或许屡次不雅看的主题演媾和其他受邀演讲的灌音及视频。
参考链接:https://ruder.io/acl2022/
参考文献:
[1] Phone-ing it in: Towards Flexible Multi-Modal Language Model Training by Phonetic Representations of Data. https://aclanthology.org/2022.acl-long.364/
[2] Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with Articulatory Features. https://aclanthology.org/2022.acl-long.472/
[3] Searching for fingerspelled content in American Sign Language. https://aclanthology.org/2022.acl-long.119/
[4] Automatic Song Translation for Tonal Languages. https://aclanthology.org/2022.findings-acl.60/
[5] An Embarrassingly Simple Method to Mitigate Undesirable Properties of Pretrained Language Model Tokenizers. https://aclanthology.org/2022.acl-short.43/
[6] Overlap-based Vocabulary Generation Improves Cross-lingual Transfer Among Related Languages. https://aclanthology.org/2022.acl-long.18/
[7] Canine: Pre-training an Efficient Tokenization-Free Encoder for Language Representation. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00448/109284/Canine-Pre-training-an-Efficient-Tokenization-Free
[8] ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00461/110049/ByT5-Towards-a-Token-Free-Future-with-Pre-trained
[9] Challenges and Strategies in Cross-Cultural NLP. https://aclanthology.org/2022.acl-long.482/
[10] Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification. https://aclanthology.org/2022.acl-long.158/
[11] Generated Knowledge Prompting for Co妹妹onsense Reasoning. https://aclanthology.org/2022.acl-long.225/
[12] Metadata Shaping: A Simple Approach for Knowledge-Enhanced Language Models. https://aclanthology.org/2022.findings-acl.137/
[13] A Recipe for Arbitrary Text Style Transfer with Large Language Models. https://aclanthology.org/2022.acl-short.94/
[14] Exploiting Language Model Prompts Using Similarity Measures: A Case Study on the Word-in-Context Task. https://aclanthology.org/2022.acl-short.36/
[15] Planning with Learned Entity Prompts for Abstractive Su妹妹arization. https://aclanthology.org/2021.tacl-1.88/
[16] Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP. https://arxiv.org/abs/2103.00453
[17] PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00468/110538/PADA-Example-based-Prompt-Learning-for-on-the-fly
[18] A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models. https://aclanthology.org/2022.acl-long.197/
[19] CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment. https://aclanthology.org/2022.acl-long.421/
[20] Reframing Instructional Prompts to GPTk’s Language. https://aclanthology.org/2022.findings-acl.50/
[21] Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity. https://aclanthology.org/2022.acl-long.556/
[22] Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations. https://arxiv.org/abs/2205.11822
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





