基于“集合生成网络”的端到端知识抽取模型

2022年03月24日研究成果

基于“集合生成网络”的端到端知识抽取模型

刘康团队

如何从文本中抽取结构化知识一直是知识工程的重要任务。传统知识抽取方法往往采用分步抽取策略（例如：先抽取实体，再实体链接、再抽取关系等），难以避免错误积累传递以及分布操作的数据标注困难问题。基于神经符号学习，中科院自动化所研究员、智源青年科学家刘康团队提出基于“集合生成网络”的知识抽取系列方法，在神经网络习得的文本语义向量基础上，通过Seq2Set模型直接生成符号化知识，有效解决知识生成过程中的生成顺序问题，实现了数值向量到符号知识的映射。该方法不局限于输入文本的颗粒度（句子或者篇章），均可从中抽取相对应的结构化符号知识（实体、关系、事件等），同时可以有效解决多步处理带来的误差传递和数据标注问题。该团队在句子级实体关系抽取和篇章级事件抽取两项知识抽取任务上验证了该方法的有效性，在公开数据集上实验结果表明该方法分别将实体、事件知识抽取F1值较SOTA系统提升了13.2%和3.3%。未来该方法可以扩展到面向多模态数据的知识抽取任务。

图“基于“集合生成网络”的知识抽取方法vs. 传统知识抽取流程（图片来源：学者提供）

基于“集合生成网络”的端到端知识抽取模型

分享到：