[发明专利]英文事件触发词抽取方法和系统有效

申请号：	201811093486.2	申请日：	2018-09-19
公开（公告）号：	CN109325228B	公开（公告）日：	2023-02-10
发明（设计）人：	吴文涛;李培峰;朱巧明;周国栋;朱晓旭	申请（专利权）人：	苏州大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/211;G06F40/30
代理公司：	苏州市中南伟业知识产权代理事务所(普通合伙) 32257	代理人：	许燕萍
地址：	215000 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	英文事件触发抽取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种英文事件触发词抽取方法，包括：读取标注文档的实体标注信息和事件标注信息，对标注文档中的每一个事件句调用词形还原工具进行词形还原，分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合；对标注语料事件集合中每个触发词，匹配词形还原文档集合中的词原形。上述英文事件触发词抽取方法，基于论元预测的事件触发词抽取系统和方法，将预测的论元和句子转化成词向量，利用循环神经网络自动的捕获触发词和论元之间的隐含特征，以及论元的深层语义信息。本发明的方法和系统，与现有方法和系统相比，触发词抽取性能得到了提升。

技术领域

本发明涉及文本信息抽取领域，特别是涉及英文事件触发词抽取方法和系统。

背景技术

事件(Event)作为信息的一个重要载体，其定义是指特定的人、物、事在特定时间和特定地点相互作用的客观事实，如离职事件，会面事件，攻击事件等。一个完整的事件可以表达成为“5W”形式(Who(实施者(谁))，What(什么)，Whom(受事者(谁))，When(什么时候)，Where(什么地方))，其中“What”的语义一般由触发词(如：袭击，攻击)来体现，其余4个“W”则对应事件中扮演不同的角色的实体类型。其中，When和Where对应的角色所填充的论元一般不具有明显的事件类型区分度；只有Who和Whom对应的角色所填充的论元才具有鲜明的事件类型区分度。所以，一个事件的核心语义是由触发词和论元表达的。

早期的触发词抽取方法主要集中在特征选择方面，Ahn[1]使用了一系列特征，如词汇特征(词性)，句法特征(依存句法)以及外部语义知识(WordNet)来抽取事件。Grishman[2]针对事件抽取语料中Attack(表示攻击)事件分布不平衡的情况，在传统句子级事件类型分类器的基础上，引入文档级事件类型分类器，用于判断该文档包含Attack事件的置信度。Liao[3],[4]等通过文档级别的跨事件推理方法，利用相关事件的信息和事件类型一致性等特征进行事件抽取。Hong[5]等提出利用跨实体推理进行事件抽取，其核心是充分实体类型的一致性特征，通过搜索引擎构建实体的背景信息，并根据实体的背景信息，采用聚类方法对实体类型进行更细粒度的区分，进一步提升了事件抽取性能。Li[6]等针对传统的串行结构事件抽取方法存在错误传递的情况，采用基于结构化感知机的联合模型，将触发词分类和事件成员分类看作一个整体的序列标注任务，分析并检验多种局部和全局特征，进而体现联合模型解决错误传递问题的有效性。Liu[7]等使用基于概率逻辑方法将局部和全局特征联合在一起。

随着这几年的深度学习方法的流行，Nguyen[8]等人摒弃了人工设计特征的方法，采用CNN(Convolution Neural Network)深度学习模型，仅以待测词及其上下文和实体类型作为特征，在触发词分类和领域适应性实验中，性能较特征工程有所提升。Chen[9]等针对基于CNN的事件抽取方法很好地处理一个句子包含多个事件的情况，提出DMCNN(DynamicMulti-Pooling Convolutional Neural Network)深度学习模型，有效解决一个句子包含多个事件的情况。Nguyen[10]等利用循环神经网络同时对触发词和论元进行抽取，联合模型可以捕获到事件的内部和外部依赖关系。

参考文献：

David Ahn.The Stages of Event Extraction[C].Proceedings of theWorkshop of the ACL on Annotating and Reasoning about Time and Events,2006:pages 1-8.

Grishman R.The Impact of Task and Corpus on Event Extraction System[C].Proceedings of the International Conference on Language Resources andEvaluation(LERC 2010),Valletta,Malta,2010,17-23.

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州大学，未经苏州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811093486.2/2.html，转载请声明来源钻瓜专利网。

上一篇：用于生成修正语句的方法和装置
下一篇：一种利用语义信息计算文本相似度的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]英文事件触发词抽取方法和系统有效

专利文献下载