[发明专利]一种中文实体间语义关系抽取方法有效
申请号: | 201210294437.1 | 申请日: | 2012-08-17 |
公开(公告)号: | CN102799577A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 钱龙华;刘丹丹;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 实体 语义 关系 抽取 方法 | ||
技术领域
本发明属于文本处理技术领域,尤其涉及一种中文实体间语义关系抽取方法。
背景技术
命名实体间语义关系抽取(可简称为实体关系抽取或关系抽取)是信息抽取中的一个重要研究内容,其任务是从自然语言文本中提取出两个命名实体之间所存在的语义关系,例如短语“美国总统克林顿的平壤之行”中的两个实体“克林顿”(PER-人物)和“平壤”(GPE-地理政治实体)之间存在的物理位置关系(PHYS.Located)。命名实体间语义关系抽取作为一项应用基础性研究,对内容理解、问题回答、自动文摘、以及信息过滤等自然语言处理应用都具有重要的意义。
实体间语义关系抽取通常采用指导性的机器学习方法,按关系实例的表达形式可分为基于特征向量的方法和基于核函数的方法。在基于特征向量的实体关系抽取方法中,将关系实例转换成分类器可接受的包含词汇、句法或语义特征的特征向量。该方法尽管速度很快,也很有效,然而由于实体间语义关系表达的复杂性和可变性,其关系抽取的性能较低。在基于核函数的实体关系抽取方法中,直接以结构树为处理对象,计算各个结构树之间的相似度,再使用支持核函数的分类器进行关系抽取。由于该方法可以充分利用结构化特征,理论上可探索隐含的高维特征空间,因此,虽然它训练和预测的速度较慢,人们仍然希望通过对核函数的进一步研究和应用来提高关系抽取的性能。
申请人经过研究发现词汇语义信息在关系抽取中具有重要的作用。词汇不同但语义相近的两个词语,在两个不同的句子中可以表明相同的语义关系,例如,中文关系实例“他的妻子”和“她的丈夫”都属于家庭关系(PER-SOC.Family),其中实体“他”和“她”、“妻子”和“丈夫”是两个不同的词汇,但是却具有相近的语义。
因此,如何利用词汇语义信息提高中文实体间语义关系抽取的性能,并尽量简化计算过程、降低计算量,从而降低系统开销是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种中文实体间语义关系抽取的方法,利用词汇语义信息提高关系抽取的性能,并尽量降低计算量,从而降低系统开销。
为实现上述目的,本发明提供如下技术方案:
一种中文实体间语义关系抽取方法,用于在包含两个中文实体的自然语句中抽取实体间的语义关系,所述方法包括:
对自然语句进行句法分析,确定所述自然语句的完全句法树;
在所述完全句法树中提取所述两个中文实体之间的最短路径包含树;
在所述最短路径包含树中提取距离第二中文实体最近的路径动词,所述第二中文实体为两个中文实体中在所述自然语句出现位置靠后的中文实体;
分别获取所述两个中文实体和路径动词的语义信息;
按照预设规则将获取的三个语义信息加入所述最短路径包含树的根节点下,确定扩展后的最短路径包含树为所述自然语句的关系树;
利用预存的分类模型对所述关系树进行关系分类。
优选的,在上述方法中,在所述最短路径包含树中提取距离第二中文实体最近的路径动词,具体包括:
在所述最短路径包含树中确定所述第二中文实体所处的结点;
从所述第二中文实体所处结点开始,在所述第二中文实体所处结点的上层结点中查找标签为“VP”的结点;
查找所述标签为“VP”的结点的子节点;
当所述标签为“VP”的结点的子结点的标签为“VV”或“VE”时,获取所述标签为“VV”或“VE”的结点的子结点处的词汇作为所述路径动词。
优选的,在上述方法中,所述分别查找所述两个中文实体和路径动词的语义信息,具体包括:
利用预存的词语与基本义原的映射表,分别查找与所述两个中文实体和路径动词对应的基本义原;
当查找到与所述两个中文实体和路径动词对应的基本义原时,将查找到的基本义原作为语义信息;
当词语具有多个基本义原时,所述映射表中仅包含所述词语与其第一基本义原的映射关系。
优选的,在上述方法中,当未在所述映射表中查找到与中文实体对应的基本义原时,所述方法还包括:
对所述未查找到基本义原的中文实体进行分词处理,获得多个新的中文子实体;
利用所述映射表,查找与所述多个新的中文子实体中出现位置最靠后的中文子实体对应的基本义原;
将查找到的中文子实体的基本义原作为所述未查找到基本义原的中文实体的语义信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210294437.1/2.html,转载请声明来源钻瓜专利网。