米兰·(milan)中国官方网站-ACL 2022 共收录4篇词义消歧论文,3篇来自一个意大利科研团队

作者 | Antonio
编纂 | 陈彩娴ACL 2022已经经在近期正式于官网上登载了登科的文章,此中触及到词义消歧(Word Sense Disambiguation, WSD)的文章共有4篇,参考下图的查询。
WSD是指辨认出有多个义项的方针辞汇于上下文中的寄义,是NLP中一个主要而且具备NP-hard繁杂度的使命,不仅可以帮忙呆板更好地辨认辞汇语义,还有对于呆板翻译、文本理解等下流使命起到辅助作用。
本文扼要收拾并先容此中已经经宣布了论文全文的前三篇,值患上留意的是,这三篇都出自统一个课题组,即来自意年夜利罗马一年夜的Sapienza NLP,导师为Roberto Navigli。

(ACL 22上关在WSD的论文)
1WSD真的跨越了人类机能了吗?
论文标题问题:Nibbling at the Hard Core ofWord Sense Disambiguation
下载链接:https://www.researchgate.net/publication/359468349_Nibbling_at_the_Hard_Core_of_Word_Sense_Disambiguation
本文是一篇评测以往的WSD要领的阐发型论文,并按照对于在当前要领的不足,提出了越发富有挑战性的数据集及评测指标。详细而言:
一、文章从定性及定量两个方面,细心阐发了7个当前最SOTA的模子城市存于的一些过错及误差。这些模子都是经典模子,而且于其时到达过最好机能。它们别离是基在判别式的ARES,BEM,ESCHER(当前SOTA),EWISER, GlossBERT;基在天生式的Generationary;及无监视练习的SyntagRank模子。值患上留意的是,这7个模子中有5个模子是属在Roberto课题组。思量到抱负的模子应该体现患上及人类近似的假定,现有模子于WSD上犯患上许多过错是初级及违反知识的。例以下面的例子:
论文标题问题:DIBIMT: A Novel Benchmark for Measuring Word Sense Disambiguation Biases in Machine Translation论文链接:https://www.researchgate.net/publication/359280784_DiBiMT_A_Novel_Benchmark_for_Measuring_Word_Sense_Disambiguation_Biases_in_Machine_Translation
一词多义征象于呆板翻译中显患上尤为凸起,这也是呆板翻译中经常呈现的误差的缘故原由。文章研究了呆板翻译中的多义性误差征象,而且提出了一个全新的测试基准,包罗针对于多种语言的测试集以和评价指标。详细来看,文章的孝敬有:
一、文章针对于英语作为源语言,五种语言(中文、德文、意年夜利语、俄罗斯语及西班牙语)作为方针语言,标注了常见的WSD中呈现的带有歧义词的正负样例,以下图展示了一个样例,显示了英文中shot于差别语言中的正误翻译:
文章具体描写了句子的网络历程,包括语言库选择、句子洗濯及过滤、数据集标注等。下图展示了数据集的标注统计量:

此中数据集重要网络了名词及动词。以后因为数据集是从BabelNet中网络的,文中则界说了好的及坏的释义集,而且统计了多年夜比例的释义被标注者添加(OG);多年夜比例被移除了(RG)及两句例句利用统一释义的比例(SL),统计量以下:


从正确率上可以看出,DeepL的机能要显著患上比其它要领更好。
于细粒度阐发歧义的新指标上,也有近似的趋向:

以后,文章还有切磋了许多成心思的语言学阐发,好比,是否动词要比名词更难翻译?编码器是否真的可以去歧义等等?有兴致的读者可以找来文章细细浏览。
代码及评测平台以后会放出:https://nlp.uniroma1.it/dibimt
3实体去歧义使命的新界说
论文标题:ExtEnD: Extractive Entity Disambiguation论文链接:https://www.researchgate.net/publication/359392427_ExtEnD_Extractive_Entity_Disambiguation
文章对于WSD内的一个越发细粒度的实体去歧义的使命举行了新的方式去界说,即把它看成一个文本抽取的使命,而且采用两个Transformer模子架构实现(定名为EXTEND)。EXTEND于6个评价数据库中有4个于F1 score上都到达了SOTA程度。
实体是指瓜葛收集中的节点,比拟WSD中越发宽泛的辞汇,实体名词往往更具备现实意义,而且更有多义性的可能性,下面展示了一个例子,选出Metropolis可能指的是哪一个场景下的。

详细而言,以下图,EXTEND架构起首将输入的上下文及所有的候选项拼接于一路,模子的输出则是方针选项的肇始及终止的单词索引。此中,提取特性的部门是Longformer,以后的head采用简朴的FC输出每个辞汇可能成为肇始及终止的几率。

事实上,将WSD界说为这类文本提取的方式于以前的要领ESC及ESCHER中被两次用到(都是统一位作者),此中的ESCHER要领是当前WSD的SOTA要领,这开导咱们这类截取式方式的有用性。
如下是模子于6个数据集上的体现,它于此中的4个上面到达了最优的程度。

如前述所示,这三项事情都是由Roberto Navigli带领的课题组完成的。于WSD范畴内,该课题组就承包了泰半事情,包罗模子的提出、新使命的界说、数据集语料库的设置装备摆设、富有开导的阐发等等。而Roberto本人也一直专注在这一范畴,其博士卒业论文就是关在WSD的;而试验室成员的许多研究标的目的也都险些包罗这个范畴,这是从差别的角度去挖掘,例如多语等。这类几十年如一日的专注确凿很使人敬仰,这可能也是课题组不停可以产出高质量的WSD文章的主要缘故原由。试验室主页(http://nlp.uniroma1.it/)就有具体的文章先容,对于这一范畴感兴致的同窗必然要随时存眷。
雷峰网(公家号:雷峰网)雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





