[发明专利]一种基于最大熵的事件抽取方法在审
| 申请号: | 201410838622.1 | 申请日: | 2014-12-29 |
| 公开(公告)号: | CN104598535A | 公开(公告)日: | 2015-05-06 |
| 发明(设计)人: | 崔现鹏;黎建辉;杨风雷;王鹏尧;汪海燕;周昊 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 最大 事件 抽取 方法 | ||
1.一种基于最大熵的事件抽取方法,其步骤为:
1)构建一触发词词典和一事件元素角色词典;其中,触发词词典中每一触发词对应一事件类别,事件元素角色词典中记录每一事件中的事件元素对应的角色名称;
2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;
3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;
4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;
5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。
2.如权利要求1所述的方法,其特征在于,所述触发词词典的构建方法为:
21)初始设置一种子触发词词典,词典中的每一行包括种子触发词以及触发词对应的事件类别,所述事件类别为涵盖需要预测的多个类别;
22)对于每一个种子触发词T,通过匹配同义词典得到其所有同义、近义词语,进行种子触发词词典的扩充,得到所述触发词词典。
3.如权利要求1所述的方法,其特征在于,所述事件元素角色词典的构建方法为:
31)初始设置种子事件元素角色词典,词典中的每一行包括事件中的元素词语以及词语对应的角色类别;所述角色类别涵盖每一设定事件中的多个角色类别;
32)对于每一元素词语R,通过匹配同义词典获取其所有同义、近义词语,进行事件元素角色词典的扩充。
4.如权利要求1或2或3所述的方法,其特征在于,获取所述最大熵模型MT的方法为:
41)读取已标注训练语料,对于每一篇语料进行分段、分句处理;
42)对于得到的每一句子,通过标签判断是否包括事件信息;对于包含事件信息的句子,对句子进行分词和词性识别,获取事件的触发词、事件类型;
43)提取事件实体的特征,然后将所提取特征生成统一格式的输入文件,通过机器学习的方法训练获取所述最大熵模型MT。
5.如权利要求4所述的方法,其特征在于,所述特征包括触发词、触发词的词性、触发词前面P个词语的词形以及词性、触发词后面P个词语的词形以及词性、事件类别。
6.如权利要求1或2或3所述的方法,其特征在于,获取所述最大熵模型MR的方法为:
61)读取已标注训练语料,对于每一篇语料进行分段、分句处理;
62)对于得到的每一事件句中的每一个元素词语,提取元素特征并将其生成统一格式的输入文件,通过机器学习的方法进行模型训练获取所述最大熵模型MR。
7.如权利要求6所述的方法,其特征在于,所述元素特征包括:元素词语的词形、词性、命名实体识别结果、角色类型,元素词语前面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型,元素词语后面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型,元素词语与触发词之间的句法关系依存链,元素词语所属事件的事件类型。
8.如权利要求1所述的方法,其特征在于,所述候选事件的获取方法为:首先对需要抽取事件的语料进行分段、分句处理,然后对分句后得到的每一个句子进行分词处理,判断词语中是否包含触发词,如果包含触发词则将句子归为候选事件句。
9.如权利要求1所述的方法,其特征在于,所述获取属于设定事件类别的事件句子的方法为:首先对于每一所述候选事件句进行分词后获取词语对应的词性;然后提取候选事件句的特征并将其生成统一格式的输入文件,然后利用所述最大熵模型MT进行预测,将预测概率与设定的阈值做比较,超过阈值则将对应的候选事件划为属于设定事件类别的事件句子。
10.如权利要求1所述的方法,其特征在于,所述步骤5)中进行事件抽取的方法为:首先对属于设定事件类别的事件句子进行分词、词性识别、命名实体识别以及句法分析;然后判断分词后的每一个词语是否出现在所述事件元素角色词典中,标注事件角色特征,提取事件句中词语的特征并生成统一格式的输入文件,然后采用所述最大熵模型MR进行预测,对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心;,未经中国科学院计算机网络信息中心;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410838622.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:目标物信息推荐方法和装置
- 下一篇:图片折叠方法及装置





