[发明专利]一种论元抽取方法和系统有效
申请号: | 201310482550.7 | 申请日: | 2013-10-15 |
公开(公告)号: | CN103530281A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 李培峰;朱巧明;周国栋;张玉华;孔芳 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抽取 方法 系统 | ||
技术领域
本发明属于文本信息抽取领域,尤其涉及一种论元抽取方法和系统。
背景技术
事件的论元抽取是理解自然语言的重要基础,可以为人们快速获取知识提供便利的途径,是计算机理解自然语言的必要条件,对自动文摘、机器翻译、问答系统等具有积极的促进作用。
目前,主流的事件论元抽取方法为机器学习法,该方法利用句法特征来识别事件的论元及其角色。但中文是一种话题驱动的语言,是一种意合语言,以能够表达清楚语义为准,区别于英文句子较为严谨的句法结构,中文句子结构较为松散,句子成分搭配也较为灵活,且为了表述的连贯性和简洁性,部分句法成分缺省是一种常态,从而很多中文句子存在句法特征不够明显的特点。因而上述基于句法特征的事件论元抽取方法在抽取中文事件的论元时,准确率较低、性能较低。
发明内容
有鉴于此,本发明的目的在于提供一种论元抽取方法和系统,实现基于语义特征对中文事件的论元进行提取,从而提高中文事件论元提取的准确率和性能。
为此,本发明公开如下技术方案:
一种论元抽取方法,包括:
从训练语料中抽取包含标注信息的标注事件实例,基于所述标注信息对所述标注事件实例进行分析、处理,得到训练语料论元模式集合,其中,所述训练语料论元模式集合包括至少一个训练语料论元模式,所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组;
从测试语料中抽取事件实例,获取所述事件实例的角色集合,基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合,其中,所述测试语料候选论元模式集合包括至少一个候选论元模式,所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组;
根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合;
基于各个候选论元模式的模式语义相似度集合,获取论元模式相似度集合,所述论元模式相似度集合包括论元模式相似度元素,所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息;
基于所述论元模式相似度集合,选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。
优选的,所述基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合具体包括:
对所述事件实例进行实体识别和依存关系分析,得到测试语料实体集合和测试语料依存关系集合;
依据所述角色集合对所述测试语料实体集合中的实体进行分析、处理,得到测试语料候选论元集合;
根据所述测试语料依存关系集合,获取所述测试语料候选论元集合中的每一候选论元到其对应的触发词实例的依存路径;
将所述候选论元、所述候选论元对应的触发词实例和依存路径进行组合,得到测试语料候选论元模式,各测试语料候选论元模式构成测试语料候选论元模式集合;
依据预设的筛选规则从所述测试语料候选论元模式中删除不符合所述预设的筛选规则的候选论元模式,得到测试语料筛选论元模式,将所述测试语料筛选论元模式替换所述测试语料候选论元模式作为新的测试语料候选论元模式。
优选的,所述根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的所有论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合具体包括:
基于优化的夹角余弦法,利用公式(1)计算所述候选论元模式pm和所述训练语料论元模式集合TP中的每个论元模式tpj的依存路径相似度SimD(pm,tpj):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310482550.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:获取好友名单的方法和装置
- 下一篇:可自动折叠的LED显示屏及其使用方法