米兰·(milan)中国官方网站-ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

作者：米兰·(milan)文化更新时间：2026-04-01 12:13:35 点击数：

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

作者 | Antonio

编纂 | 陈彩娴

ACL 2022已经经在近期正式于官网上登载了登科的文章，此中触及到词义消歧（Word Sense Disambiguation, WSD）的文章共有4篇，参考下图的查询。

WSD是指辨认出有多个义项的方针辞汇于上下文中的寄义，是NLP中一个主要而且具备NP-hard繁杂度的使命，不仅可以帮忙呆板更好地辨认辞汇语义，还有对于呆板翻译、文本理解等下流使命起到辅助作用。

本文扼要收拾并先容此中已经经宣布了论文全文的前三篇，值患上留意的是，这三篇都出自统一个课题组，即来自意年夜利罗马一年夜的Sapienza NLP，导师为Roberto Navigli。

（ACL 22上关在WSD的论文）

1WSD真的跨越了人类机能了吗？ ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

论文标题问题：Nibbling at the Hard Core ofWord Sense Disambiguation

下载链接：https://www.researchgate.net/publication/359468349_Nibbling_at_the_Hard_Core_of_Word_Sense_Disambiguation

本文是一篇评测以往的WSD要领的阐发型论文，并按照对于在当前要领的不足，提出了越发富有挑战性的数据集及评测指标。详细而言:

一、文章从定性及定量两个方面，细心阐发了7个当前最SOTA的模子城市存于的一些过错及误差。这些模子都是经典模子，而且于其时到达过最好机能。它们别离是基在判别式的ARES，BEM，ESCHER（当前SOTA），EWISER， GlossBERT；基在天生式的Generationary；及无监视练习的SyntagRank模子。值患上留意的是，这7个模子中有5个模子是属在Roberto课题组。思量到抱负的模子应该体现患上及人类近似的假定，现有模子于WSD上犯患上许多过错是初级及违反知识的。例以下面的例子：

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

ESCHER是当前SOTA模子，于上述对于在母语者看来wind必然不会是空气的寄义，但模子却判定过错。从定量的角度，文章重点阐发了WSD中很是常见的不服衡问题——最频仍释义误差（MFS）及练习数据误差，即测试集中存于练习集中从未见过的释义。这两个问题都由常识不确定性（epistemic uncertainty）致使的。从定性角度，文章则阐发了标注者误差，这属在固有的随机不确定性（aleatoric uncertainty），一个语言学专家标注了测试集呈现的6类误差，并做了具体阐发。二、出在上述误差的阐发，文章也提出了一系列更硬核的评测测试调集，即42D，42个语言domain，而且对于在那些不常呈现的释义方针也做了很好的评估。同时研究者们提出了批改了原本的micro-averaged的F1患上分，而酿成了macro-average的F1患上分。末了，文章网络了于上述模子中都难以分对于的那些实例，定名为“hardEN”。换句话说这个所有的模子对于在这个测试集的F1患上分都为0。如许对于在以后模子评估设计了一个很难的试金石。

2用来权衡呆板翻译中的WSD的测试基准 ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

论文标题问题：DIBIMT: A Novel Benchmark for Measuring Word Sense Disambiguation Biases in Machine Translation

论文链接：https://www.researchgate.net/publication/359280784_DiBiMT_A_Novel_Benchmark_for_Measuring_Word_Sense_Disambiguation_Biases_in_Machine_Translation

一词多义征象于呆板翻译中显患上尤为凸起，这也是呆板翻译中经常呈现的误差的缘故原由。文章研究了呆板翻译中的多义性误差征象，而且提出了一个全新的测试基准，包罗针对于多种语言的测试集以和评价指标。详细来看，文章的孝敬有：

一、文章针对于英语作为源语言，五种语言（中文、德文、意年夜利语、俄罗斯语及西班牙语）作为方针语言，标注了常见的WSD中呈现的带有歧义词的正负样例，以下图展示了一个样例，显示了英文中shot于差别语言中的正误翻译：

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

文章具体描写了句子的网络历程，包括语言库选择、句子洗濯及过滤、数据集标注等。下图展示了数据集的标注统计量：

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

此中数据集重要网络了名词及动词。以后因为数据集是从BabelNet中网络的，文中则界说了好的及坏的释义集，而且统计了多年夜比例的释义被标注者添加（OG）；多年夜比例被移除了（RG）及两句例句利用统一释义的比例（SL），统计量以下：

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

二、除了了正确率，文章界说了四种全新的评价指标，用来权衡频率及词义的瓜葛，它们别离是：Sense Frequency Index Influence (SFII)，Sense Polysemy Degree Importance (SPDI)，Most and More Frequent Senses相干的两个MFS及MFS+。三、文章比力了5类SOTA的呆板翻译体系，包罗两类贸易体系：DeepL Translator，Google Translator及三类非贸易模子，包罗：OPUS，MBart50及M2M100。它们于五类语言上的分类成果参考下图：

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

从正确率上可以看出，DeepL的机能要显著患上比其它要领更好。

于细粒度阐发歧义的新指标上，也有近似的趋向：

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

以后，文章还有切磋了许多成心思的语言学阐发，好比，是否动词要比名词更难翻译？编码器是否真的可以去歧义等等？有兴致的读者可以找来文章细细浏览。

代码及评测平台以后会放出：https://nlp.uniroma1.it/dibimt

3实体去歧义使命的新界说 ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

论文标题：ExtEnD: Extractive Entity Disambiguation

论文链接：https://www.researchgate.net/publication/359392427_ExtEnD_Extractive_Entity_Disambiguation

文章对于WSD内的一个越发细粒度的实体去歧义的使命举行了新的方式去界说，即把它看成一个文本抽取的使命，而且采用两个Transformer模子架构实现（定名为EXTEND）。EXTEND于6个评价数据库中有4个于F1 score上都到达了SOTA程度。

实体是指瓜葛收集中的节点，比拟WSD中越发宽泛的辞汇，实体名词往往更具备现实意义，而且更有多义性的可能性，下面展示了一个例子，选出Metropolis可能指的是哪一个场景下的。

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

详细而言，以下图，EXTEND架构起首将输入的上下文及所有的候选项拼接于一路，模子的输出则是方针选项的肇始及终止的单词索引。此中，提取特性的部门是Longformer，以后的head采用简朴的FC输出每个辞汇可能成为肇始及终止的几率。

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

事实上，将WSD界说为这类文本提取的方式于以前的要领ESC及ESCHER中被两次用到（都是统一位作者），此中的ESCHER要领是当前WSD的SOTA要领，这开导咱们这类截取式方式的有用性。

如下是模子于6个数据集上的体现，它于此中的4个上面到达了最优的程度。

ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

4关在课题组

如前述所示，这三项事情都是由Roberto Navigli带领的课题组完成的。于WSD范畴内，该课题组就承包了泰半事情，包罗模子的提出、新使命的界说、数据集语料库的设置装备摆设、富有开导的阐发等等。而Roberto本人也一直专注在这一范畴，其博士卒业论文就是关在WSD的；而试验室成员的许多研究标的目的也都险些包罗这个范畴，这是从差别的角度去挖掘，例如多语等。这类几十年如一日的专注确凿很使人敬仰，这可能也是课题组不停可以产出高质量的WSD文章的主要缘故原由。试验室主页（http://nlp.uniroma1.it/）就有具体的文章先容，对于这一范畴感兴致的同窗必然要随时存眷。 ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

雷峰网(公家号：雷峰网)雷峰网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-ACL 2022 共收录4篇词义消歧论文，3篇来自一个意大利科研团队

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天