[发明专利]英文事件触发词抽取方法和系统有效
申请号: | 201811093486.2 | 申请日: | 2018-09-19 |
公开(公告)号: | CN109325228B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 吴文涛;李培峰;朱巧明;周国栋;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/211;G06F40/30 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 许燕萍 |
地址: | 215000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种英文事件触发词抽取方法,包括:读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形。上述英文事件触发词抽取方法,基于论元预测的事件触发词抽取系统和方法,将预测的论元和句子转化成词向量,利用循环神经网络自动的捕获触发词和论元之间的隐含特征,以及论元的深层语义信息。本发明的方法和系统,与现有方法和系统相比,触发词抽取性能得到了提升。 | ||
搜索关键词: | 英文 事件 触发 抽取 方法 系统 | ||
【主权项】:
1.一种英文事件触发词抽取方法,其特征在于,包括:读取所述标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形,得到触发词表;统计标注语料事件集合中触发词对应的事件类型,事件类型对应的角色,以及角色对应的实体类型,分别得到触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合;其中,所述标注文档是已经标注了实体信息和事件信息的文档集合;对标注文档中每一个原始文本调用分句工具和词形还原工具分别得到每个文档的标注句子集合和标注句子词形还原集合;对待抽取文档中每一个原始文本分别调用分句工具,词形还原工具和命名实体识别工具进行分句,词形还原和命名实体识别得到待抽取句子集合,待抽取句子词形还原集合和待抽取句子实体类型集合;其中,所述原始文本是没有任何标注信息的生文本;分别将标注句子词形还原集合和待抽取句子词形还原集合中每个句子的每个词原形和触发词表中的触发词原形进行比较,如果该词原形出现在触发词表中,则该词为候选触发词,并将对应句子组合后分别加入训练事件句集合和候选事件句集合;根据触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合,分别为训练事件句集合和候选事件句集合中的每个触发词赋予比率最大的两种事件类型,并根据论元选择策略,构建得到标注语料特征集合和待抽取语料特征集合;将标注语料特征集合中每个候选触发词的特征作为输入,训练一个基于注意力机制的循环神经网络模型触发词抽取模型,然后针对待抽取语料特征集合中的每个候选触发词进行触发词类型识别,得到待抽取语料预测集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811093486.2/,转载请声明来源钻瓜专利网。
- 上一篇:用于生成修正语句的方法和装置
- 下一篇:一种利用语义信息计算文本相似度的方法