基于遮挡-对齐的自监督词语对齐方法

2022年03月24日研究成果

基于遮挡-对齐的自监督词语对齐方法

刘洋团队

词语对齐用于发现平行句对中词语之间的对应关系，是机器翻译中的重要问题。现有的无监督神经机器翻译方法往往借助Transformer模型的注意力矩阵生成词语对齐，在建模时无法充分利用目标端的上下文信息，并且不得不借助外部词语对齐方法提供额外的监督信号。清华大学教授、智源研究员刘洋等提出了一种基于遮挡-对齐策略的自监督词语对齐方法，其基本思想是遮挡目标端的一个词，利用源端和目标端上下文信息尝试预测出被遮挡的词，假设对于预测成功贡献的源端词应该和该目标端词相连。项目团队还提出了静态键值注意力机制，在计算注意力时固定键值不变，有效解决了自注意力机制中的信息泄露问题。实验结果表明，项目组提出的方法在德语-英语、英语-法语、罗马尼亚语-英语和汉语-英语等国际公开数据集上取得了显著的效果。

刘洋.png

图. 基于遮挡-对齐的自监督词语对齐方法（图片来源：学者提供）

基于遮挡-对齐的自监督词语对齐方法

分享到：