EN
2022年03月24日研究成果

基于遮挡-对齐的自监督词语对齐方法

刘洋团队

    词语对齐用于发现平行句对中词语之间的对应关系,是机器翻译中的重要问题。现有的无监督神经机器翻译方法往往借助Transformer模型的注意力矩阵生成词语对齐,在建模时无法充分利用目标端的上下文信息,并且不得不借助外部词语对齐方法提供额外的监督信号。清华大学教授、智源研究员刘洋等提出了一种基于遮挡-对齐策略的自监督词语对齐方法,其基本思想是遮挡目标端的一个词,利用源端和目标端上下文信息尝试预测出被遮挡的词,假设对于预测成功贡献的源端词应该和该目标端词相连。项目团队还提出了静态键值注意力机制,在计算注意力时固定键值不变,有效解决了自注意力机制中的信息泄露问题。实验结果表明,项目组提出的方法在德语-英语、英语-法语、罗马尼亚语-英语和汉语-英语等国际公开数据集上取得了显著的效果。


刘洋.png

图. 基于遮挡-对齐的自监督词语对齐方法(图片来源:学者提供)


分享到: