米兰·(milan)中国官方网站-EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

作者：米兰·(milan)文化更新时间：2026-04-24 23:46:53 点击数：

EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

跟着收集上各类信息的指数级增加，以和跨语言获守信息的需求不停增长，呆板翻译逐渐成为网上冲浪?‍♀️时必不成少的东西。网页翻译让咱们于 Reddit 等外国论坛里及网友妙语横生；火山同传等智能字幕翻译体系让咱们无需等候字幕组，直接不雅看“生肉”剧集；谈天翻译让咱们成立跨国商业，交友外国友人。

然而，上面提到的场景往往有一个配合点，那就是被翻译的文本往往是不规范的。不管是谈天时手误致使的错别字，还有是视频语音原文辨认的过错，城市极年夜地影响译文质量。是以，现实运用场景下的呆板翻译对于翻译模子的鲁棒性有很高的要求。

今天就为各人先容一篇由字节跳感人工智能试验室火山翻译团队发表于 EMNLP 2021 Findings 的漫笔 - Secoco: Self-Correcting Encoding for Neural Machine Translation。这篇论文让翻译模子于进修翻译使命的同时，进修怎样对于输入的带噪文本举行纠错，从而改善翻译质量。

EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

论文地址：https://arxiv.org/abs/2108.12137代码地址：https://github.com/rgwt123/Secoco

1研究配景及念头

神经呆板翻译于近些年取患了很猛进展，可是年夜部门事情都是基在洁净的数据集。于实际糊口中，神经呆板翻译体系面临的输入往往都是包罗噪声的，这对于翻译模子的鲁棒性提出了很年夜挑战。

以前的翻译鲁棒性事情重要分为三类：

第一类是针对于模子天生匹敌样例，这些天生的匹敌样例被用在一路从头练习模子。

第二类是针对于练习数据，经由过程过滤练习数据中的噪声来晋升模子质量。

第三类则是专注在处置惩罚输入中包罗的自然噪声，他们利用法则，回翻等要领来合成噪声，并混淆到原始数据中一路练习。

可以看到，年夜部门的事情都专注在怎样天生噪声，很少探究怎样进一步利用它们；本文则想要经由过程建模从噪声数据到洁净数据的批改历程，从而加强模子的鲁棒性。

图1 一个简朴的批改历程如图 1 所示，假如想要把一个带噪序列 abbd 批改为 abcd ，那末可以先删除了第三个位置的 b ，再于第三个位置插入 c 。也就是说，可以将对于带噪文本的批改转化为插入及删除了的序列，并于编码器端显式地建模这一历程。

2自批改模子Secoco

作者针对于神经呆板翻译提出了具备鲁棒性的自批改框架Secoco (Self-correcting Encoding)。

图2 总体模子架构

正如图2左边所示，Secoco 及平凡的翻译模子差别的地方于在 Secoco 有两个批改操作的猜测模块，这些猜测模块基在输入序列的暗示天生响应的操作序列。删除了猜测器 (Deletion Predictor) 按照当前词的暗示猜测是否要删除了，而插入猜测器 (Insertion Predictor) 则按照两个持续的词的暗示猜测中间是否要插入新的词。

虽然这类迭代编纂的历程每一一步都需要前面的操作，可是为了简化练习历程，插入猜测器及删除了猜测器都是彼此自力的，并与平凡的翻译使命同时举行练习。

一个要害的问题是怎样天生这些练习数据？要害点于在获取从带噪数据转化为洁净数据的编纂操作。作者提供了两种方式。一种是针对于有带噪数据及对于应洁净 reference 数据的环境，一种是没有带噪数据的环境。

对于在有reference的数据，可使用近似计较最短编纂间隔的要领，获取从带噪数据转化为洁净数据的最短编纂历程，然后将替代操作转化为删除了-插入操作。

对于在没有reference的数据，可使用基在法则的要领天生伪数据。针对于差别的场景，可以设计对于应的法则，然后从洁净的数据中天生带噪数据，末了反向这个历程就能够获得编纂历程。

练习完成后，即可以举行解码。正如图2右边展示的，Secoco 有两种解码方式。第一种是仅利用编码器-解码器布局直接举行翻译 (Secoco-E2E)，另外一种则是对于输入举行迭代编纂后再举行翻译 (Secoco-Edit)。

3机能一览

作者于三个测试集举行了试验，包括一个基在电视剧的中英对于话测试集，一个内部的中英语音翻译测试集，以和插手人工噪声的英德WMT14测试集。

表1 测试集统计

如表1所示，对于话测试集包罗主语省略，标点省略，错别字等问题；语音测试集包罗白话词，错别字等 ASR 引起的问题；WMT14 则包罗由法则组织的随机插入，随机删除了，反复等问题。

试验成果如表2所示。除了了 Secoco 以外，作者还有及3种要领举行了对于比，别离是将合成的噪声数据插手原始数据中一路练习 (BASE+synthetic)；利用修复模子加之翻译模子的 pipeline 级联络构 (REPAIR)；以和多编码器-单解码器的布局 [1] (RECONSTRUCTION)。可以看出，所有的要领相较在基线模子都有所晋升。Secoco 于三个测试集上都得到了最佳的效果。

表2 试验成果

此外，于这三个测试集中，对于话测试集较着包罗更多的噪声，Secoco 至多可以带来3个 BLEU 的晋升。语音测试集因为是由 ASR 导出的，是以最佳的成果也仅有12.4。

表3 迭代编纂样例

表格3中给出了一些迭代编纂的详细例子。针对于每一一句输入，模子对于其举行迭代删除了及插入操作，直到文本再也不发生变化。从例子中可以看到，一次编纂操作可以同时删除了或者者插入多个词。此外，对于在上述的测试集，平均每一个句子需要2-3次编纂操作。

4总结

针对于互联网中非规范输入带来的鲁棒性问题，本文重要先容了一个具备自我批改能力的神经呆板翻译框架 Secoco，该框架经由过程两个自力的编纂操作猜测器建模批改带噪输入的历程。试验注解，Secoco 于多个测试集上都优在基线模子，加强了翻译模子的鲁棒性，并提供了必然的可注释性。

[1] Shuyan Zhou, Xiangkai Zeng, Yingqi Zhou, Antonios Anastasopoulos, and Graham Neubig. 2019. Improving robustness of neural machine translation with multi-task learning. In Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1), pages 565–571.

EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

雷峰网(公家号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天