[发明专利]一种基于统一结构生成的通用信息抽取方法及系统有效
申请号: | 202210031254.4 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114510928B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 孙乐;陆垚杰;韩先培;林鸿宇;肖欣延;戴岱;郑佳 | 申请(专利权)人: | 中国科学院软件研究所;北京百度网讯科技有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/30;G06K9/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统一 结构 生成 通用 信息 抽取 方法 系统 | ||
本发明提出一种基于统一结构生成的通用信息抽取方法及系统,属于自然语言处理技术领域,采用通用的结构化抽取语言表达不同的抽取结构,该结构化语言包含不同的层次,可以表示多种不同结构的信息抽取结果;解码时通过结构化框架抽取引导机制对特定的抽取需求进行建模,帮助模型快速泛化到特定任务;利用不同的任务对统一生成模型进行预训练,并对预训练后的模型进行微调,提高统一生成模型的性能。
技术领域
本发明涉及一种基于统一结构生成的通用信息抽取方法及系统,属于自然语言处理技术领域。
背景技术
通用信息抽取(Universal Information Extraction)旨在从非结构化文本中自动抽取结构化信息,该类记录信息包括但不限于文本实体结构、实体之间关系结构和多元情感结构等。以实体关系信息抽取为例,给定句子“In 1997,Steve was excited tobecome the CEO of Apple.”,一个信息抽取系统应当能够识别一个“就职”事件,该事件的触发词为“become”,论元结构为“Steve”(主体)、“Apple”(客体)和“1997”(事件);三个实体,Apple:公司,Steve:人物,1997:时间;一个关系,“Steve”供职于“Apple”。通用信息抽取是知识图谱构建及自然语言理解中的关键任务。
具体而言,通用信息抽取的输入是特定的抽取需求和待抽取的文本,输出是结构化的知识结构。例如,如图1所示,抽取需求为人物(Person)和供职关系(Work for),输入文本是“Steve became CEO of Apple in 1997.”,最后的抽取结构为(Person,Steve,Workfor,Org,Apple)。不同的抽取需求,通用信息抽取模型应当抽取不同的新结构化知识。
目前,大多数信息抽取方法主要包括序列标注的方法、文本块分类的方法和阅读理解的方法。但是这些方法通常是面向特定任务设计的,这导致了(1)针对不同信息抽取任务通常采用特定架构、(2)针对不同数据集需要训练多个分离模型和(3)针对不同的场景需要标注多种不同的数据源。这些任务特定的解决方案极大地阻碍了信息抽取系统的快速开发和适配。首先,开发人员为大量不同的信息抽取任务/设置/场景设计并开发特定的架构的工作量大;其次,针对不同数据和任务学习孤立模型严重限制了相关任务和相似场景之间的知识共享;最后,构建专门用于特定信息抽取任务的数据集和知识源既昂贵又耗时。
发明内容
针对上述问题,本发明提供了一种基于统一结构生成的通用信息抽取方法及系统,可以对不同的IE任务进行统一建模,通过自适应的方式生成目标结构,并从不同知识源中学习通用的信息抽取能力。
本发明采用的技术方案如下:
一种基于统一结构生成的通用信息抽取方法,包括以下步骤:
构建结构抽取模式引导器,该结构抽取模式引导器包含三种类型的文本片段:信息片段的类型名称、关联关系的类型名称和语法符号,该语法符号用于组合信息片段的类型名称、关联关系的类型名称和待抽取文本;
构建由编码器和解码器组成的统一生成模型,该统一生成模型以待抽取文本与结构抽取模式引导器拼接为输入,通过编码器编码生成向量化表示,再通过解码器预测生成统一的结构化抽取语言表达式,该结构化抽取语言表达式包含信息片段的类型名称、关联关系的类型名称、信息片段和语法符号,该语法符号用于表示信息片段到信息片段的类型名称或关联关系的类型名称的映射;
通过结构映射任务、结构语言模型任务和掩码语言模型任务对统一生成模型进行预训练;该结构映射任务使用由标记序列和结构化记录组成的文本结构平行数据,训练模型学习抽取能力和生成结构化抽取语言表达式的能力;该结构语言模型任务使用由结构化记录组成的结构数据集,训练模型学习生成结构化抽取语言表达式的能力;该掩码语言模型任务使用纯文本数据集训练模型保留文本级别语义的能力;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所;北京百度网讯科技有限公司,未经中国科学院软件研究所;北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210031254.4/2.html,转载请声明来源钻瓜专利网。