[发明专利]非结构化文本事件抽取方法有效
| 申请号: | 202110934216.5 | 申请日: | 2021-08-16 |
| 公开(公告)号: | CN113407660B | 公开(公告)日: | 2021-12-14 |
| 发明(设计)人: | 陶建华;吴家帆;张大伟;杨国花;刘通 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/335;G06F16/35;G06F40/14;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李永叶 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 结构 文本 事件 抽取 方法 | ||
本发明提供非结构化文本事件抽取方法,包括:通过利用多阶句法树和图神经网络对文本信息进行编码,得到更为丰富和表征能力更强的词特征向量,进而提升事件检测的能力;通过构建外部本体知识,融入到候选事件论元编码环节,增加论元词汇特征编码的差异性,从而提升事件论元识别准确率。
技术领域
本发明涉及事件抽取领域,具体涉及非结构化文本事件抽取方法。
背景技术
事件知识是世界知识资源中一种动态的、结构化的知识数据,这类结构化的知识暗含在自然语言文本或者对话中,是人类知识体系中重要的知识结构体。例如,分析“百度首席科学家吴恩达于2017年3月22日离职”所表述的事件,可得到以下结构化信息:离职(事件类型),吴恩达(涉事人),首席科学家(所在职位),百度(离职单位),2017年3月22日(时间)。这类结构化信息可服务于自然语言处理的下游任务,比如知识图谱,搜索引擎,推荐系统以及智能问答等。
事件抽取(Event Extraction, EE)是信息抽取(Information Extraction, IE)领域中一项十分重要且极具挑战的任务,旨在从文本中自动检测出代表特定事件类型的事件触发词以及描述该事件的论元,分别对应于事件检测(Event Detection, ED)和事件论元提取(Event Arguments Extraction, EAE)两个子任务。事件知识因具有丰富的结构化信息表达能力,吸引到越来越多学界和业界的学者投入到相关研究工作,这些工作可分为模式匹配方法和机器学习方法两大类。近几年,随着深度学习的发展,神经网络模型被广泛地运用到事件抽取任务中,且在性能方面取得很大提升。
公开号为CN102693244B公开了一种用于识别非结构化文本中的信息的方法和装置,能够处理包含/不包含名称或同义词形式的非结构化文本。根据本发明的信息识别装置包括:基础术语提取单元,用于根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;术语提取规则生成单元,用于基于所提取出的基础术语和所述第一非结构化文本,生成术语提取规则;术语提取单元,用于基于所提取出的基础术语和所生成的术语提取规则,从第二非结构化文本中提取出新的术语;术语映射单元,用于将所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。
公开号为CN108280173B供了一种非结构化文本的关键信息挖掘方法、介质及设备。所述方法,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。通过根据文本信息的词向量,提取文本信息的语言模板,再将语言模板与文本信息进行匹配,提取文本信息的关键信息,能够从非结构化的文本信息中提取出结构化的语言模板,从而提取文本信息的关键信息,使用户能够快速获取文本中的关键信息。
现有技术缺点
对于事件检测任务,现有技术主要是训练基于文本序列的分类器对句子中的候选词进行分类,来确定事件类型。这种方法由于受限于神经网络模型编码长文本的能力,因而容易在捕获长句中目标词汇之间的依赖关系表现的十分低效。相反,基于依存树的方法可以利用蕴含在给在事件句的依存树中的句法关系,从而更有效地捕获每个候选触发词和相关词之间的关系。然而,现有基于依存树的方法只用了一阶的句法关系(两个词在依存树中存在直接连接的弧),使得不能对文本信息进行充分编码,虽然可以通过堆叠更多的图卷积网络层来提升编码效果,但是会造成图神经网络编码过平滑问题(不同节点的特征表示愈发趋于一致,丧失区别能力)。
对于事件论元抽取任务,现有方法将不同论元的候选词看作独立的实体,而忽视了考虑不同论元的本体概念之间的相似性,因此在模型对候选实体词区分能力不佳。
发明内容
有鉴于此,本发明提供一种非结构化文本事件抽取方法,所述方法包括:
触发词分类阶段
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110934216.5/2.html,转载请声明来源钻瓜专利网。





