[发明专利]英文事件触发词抽取方法和系统有效
申请号: | 201811093486.2 | 申请日: | 2018-09-19 |
公开(公告)号: | CN109325228B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 吴文涛;李培峰;朱巧明;周国栋;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/211;G06F40/30 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 许燕萍 |
地址: | 215000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 英文 事件 触发 抽取 方法 系统 | ||
本发明涉及一种英文事件触发词抽取方法,包括:读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形。上述英文事件触发词抽取方法,基于论元预测的事件触发词抽取系统和方法,将预测的论元和句子转化成词向量,利用循环神经网络自动的捕获触发词和论元之间的隐含特征,以及论元的深层语义信息。本发明的方法和系统,与现有方法和系统相比,触发词抽取性能得到了提升。
技术领域
本发明涉及文本信息抽取领域,特别是涉及英文事件触发词抽取方法和系统。
背景技术
事件(Event)作为信息的一个重要载体,其定义是指特定的人、物、事在特定时间和特定地点相互作用的客观事实,如离职事件,会面事件,攻击事件等。一个完整的事件可以表达成为“5W”形式(Who(实施者(谁)),What(什么),Whom(受事者(谁)),When(什么时候),Where(什么地方)),其中“What”的语义一般由触发词(如:袭击,攻击)来体现,其余4个“W”则对应事件中扮演不同的角色的实体类型。其中,When和Where对应的角色所填充的论元一般不具有明显的事件类型区分度;只有Who和Whom对应的角色所填充的论元才具有鲜明的事件类型区分度。所以,一个事件的核心语义是由触发词和论元表达的。
早期的触发词抽取方法主要集中在特征选择方面,Ahn[1]使用了一系列特征,如词汇特征(词性),句法特征(依存句法)以及外部语义知识(WordNet)来抽取事件。Grishman[2]针对事件抽取语料中Attack(表示攻击)事件分布不平衡的情况,在传统句子级事件类型分类器的基础上,引入文档级事件类型分类器,用于判断该文档包含Attack事件的置信度。Liao[3],[4]等通过文档级别的跨事件推理方法,利用相关事件的信息和事件类型一致性等特征进行事件抽取。Hong[5]等提出利用跨实体推理进行事件抽取,其核心是充分实体类型的一致性特征,通过搜索引擎构建实体的背景信息,并根据实体的背景信息,采用聚类方法对实体类型进行更细粒度的区分,进一步提升了事件抽取性能。Li[6]等针对传统的串行结构事件抽取方法存在错误传递的情况,采用基于结构化感知机的联合模型,将触发词分类和事件成员分类看作一个整体的序列标注任务,分析并检验多种局部和全局特征,进而体现联合模型解决错误传递问题的有效性。Liu[7]等使用基于概率逻辑方法将局部和全局特征联合在一起。
随着这几年的深度学习方法的流行,Nguyen[8]等人摒弃了人工设计特征的方法,采用CNN(Convolution Neural Network)深度学习模型,仅以待测词及其上下文和实体类型作为特征,在触发词分类和领域适应性实验中,性能较特征工程有所提升。Chen[9]等针对基于CNN的事件抽取方法很好地处理一个句子包含多个事件的情况,提出DMCNN(DynamicMulti-Pooling Convolutional Neural Network)深度学习模型,有效解决一个句子包含多个事件的情况。Nguyen[10]等利用循环神经网络同时对触发词和论元进行抽取,联合模型可以捕获到事件的内部和外部依赖关系。
参考文献:
David Ahn.The Stages of Event Extraction[C].Proceedings of theWorkshop of the ACL on Annotating and Reasoning about Time and Events,2006:pages 1-8.
Grishman R.The Impact of Task and Corpus on Event Extraction System[C].Proceedings of the International Conference on Language Resources andEvaluation(LERC 2010),Valletta,Malta,2010,17-23.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811093486.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于生成修正语句的方法和装置
- 下一篇:一种利用语义信息计算文本相似度的方法