[发明专利]一种基于最大熵的事件抽取方法在审

专利信息
申请号: 201410838622.1 申请日: 2014-12-29
公开(公告)号: CN104598535A 公开(公告)日: 2015-05-06
发明(设计)人: 崔现鹏;黎建辉;杨风雷;王鹏尧;汪海燕;周昊 申请(专利权)人: 中国科学院计算机网络信息中心
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京君尚知识产权代理事务所(普通合伙) 11200 代理人: 司立彬
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 最大 事件 抽取 方法
【权利要求书】:

1.一种基于最大熵的事件抽取方法,其步骤为:

1)构建一触发词词典和一事件元素角色词典;其中,触发词词典中每一触发词对应一事件类别,事件元素角色词典中记录每一事件中的事件元素对应的角色名称;

2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;

3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;

4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;

5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。

2.如权利要求1所述的方法,其特征在于,所述触发词词典的构建方法为:

21)初始设置一种子触发词词典,词典中的每一行包括种子触发词以及触发词对应的事件类别,所述事件类别为涵盖需要预测的多个类别;

22)对于每一个种子触发词T,通过匹配同义词典得到其所有同义、近义词语,进行种子触发词词典的扩充,得到所述触发词词典。

3.如权利要求1所述的方法,其特征在于,所述事件元素角色词典的构建方法为:

31)初始设置种子事件元素角色词典,词典中的每一行包括事件中的元素词语以及词语对应的角色类别;所述角色类别涵盖每一设定事件中的多个角色类别;

32)对于每一元素词语R,通过匹配同义词典获取其所有同义、近义词语,进行事件元素角色词典的扩充。

4.如权利要求1或2或3所述的方法,其特征在于,获取所述最大熵模型MT的方法为:

41)读取已标注训练语料,对于每一篇语料进行分段、分句处理;

42)对于得到的每一句子,通过标签判断是否包括事件信息;对于包含事件信息的句子,对句子进行分词和词性识别,获取事件的触发词、事件类型;

43)提取事件实体的特征,然后将所提取特征生成统一格式的输入文件,通过机器学习的方法训练获取所述最大熵模型MT。

5.如权利要求4所述的方法,其特征在于,所述特征包括触发词、触发词的词性、触发词前面P个词语的词形以及词性、触发词后面P个词语的词形以及词性、事件类别。

6.如权利要求1或2或3所述的方法,其特征在于,获取所述最大熵模型MR的方法为:

61)读取已标注训练语料,对于每一篇语料进行分段、分句处理;

62)对于得到的每一事件句中的每一个元素词语,提取元素特征并将其生成统一格式的输入文件,通过机器学习的方法进行模型训练获取所述最大熵模型MR。

7.如权利要求6所述的方法,其特征在于,所述元素特征包括:元素词语的词形、词性、命名实体识别结果、角色类型,元素词语前面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型,元素词语后面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型,元素词语与触发词之间的句法关系依存链,元素词语所属事件的事件类型。

8.如权利要求1所述的方法,其特征在于,所述候选事件的获取方法为:首先对需要抽取事件的语料进行分段、分句处理,然后对分句后得到的每一个句子进行分词处理,判断词语中是否包含触发词,如果包含触发词则将句子归为候选事件句。

9.如权利要求1所述的方法,其特征在于,所述获取属于设定事件类别的事件句子的方法为:首先对于每一所述候选事件句进行分词后获取词语对应的词性;然后提取候选事件句的特征并将其生成统一格式的输入文件,然后利用所述最大熵模型MT进行预测,将预测概率与设定的阈值做比较,超过阈值则将对应的候选事件划为属于设定事件类别的事件句子。

10.如权利要求1所述的方法,其特征在于,所述步骤5)中进行事件抽取的方法为:首先对属于设定事件类别的事件句子进行分词、词性识别、命名实体识别以及句法分析;然后判断分词后的每一个词语是否出现在所述事件元素角色词典中,标注事件角色特征,提取事件句中词语的特征并生成统一格式的输入文件,然后采用所述最大熵模型MR进行预测,对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心;,未经中国科学院计算机网络信息中心;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410838622.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top