EN
2022年03月24日研究成果

基于跨模态检索中语言关系和视觉关系间一致性原则的正则化训练方法

孙栩团队

       北京大学信息科学技术学院信息科学技术学院研究员、智源青年科学家孙栩等将跨模态检索中的语义对齐推广到了关系层面,并提出了“关系一致性”假设,通过学习更好的上下文表示,提高模型的性能和可解释性。孙栩团队首先通过计算语言自注意力分布和视觉自注意力分布间的语义距离,衡量语言关系和视觉关系间的一致性,并进一步地提出了一种正则化训练方法,通过约束两种关系的一致性,加强两个模态的语义校准和对齐。在Flickr30k和MS COCO数据集上的实验结果表明,该方法显著提高了多模态预训练模型在图文检索任务上的性能。相关成果发表在ACL 2021上。

图片5.png

(图片来源:学者提供)


分享到: