[发明专利]一种中文实体间语义关系抽取方法有效
申请号: | 201210294437.1 | 申请日: | 2012-08-17 |
公开(公告)号: | CN102799577A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 钱龙华;刘丹丹;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 实体 语义 关系 抽取 方法 | ||
1.一种中文实体间语义关系抽取方法,其特征在于,用于在包含两个中文实体的自然语句中抽取实体间的语义关系,所述方法包括:
对自然语句进行句法分析,确定所述自然语句的完全句法树;
在所述完全句法树中提取所述两个中文实体之间的最短路径包含树;
在所述最短路径包含树中提取距离第二中文实体最近的路径动词,所述第二中文实体为两个中文实体中在所述自然语句出现位置靠后的中文实体;
分别获取所述两个中文实体和路径动词的语义信息;
按照预设规则将获取的三个语义信息加入所述最短路径包含树的根节点下,确定扩展后的最短路径包含树为所述自然语句的关系树;
利用预存的分类模型对所述关系树进行关系分类。
2.根据权利要求1所述的方法,其特征在于,在所述最短路径包含树中提取距离第二中文实体最近的路径动词,具体包括:
在所述最短路径包含树中确定所述第二中文实体所处的结点;
从所述第二中文实体所处结点开始,在所述第二中文实体所处结点的上层结点中查找标签为“VP”的结点;
查找所述标签为“VP”的结点的子节点;
当所述标签为“VP”的结点的子结点的标签为“VV”或“VE”时,获取所述标签为“VV”或“VE”的结点的子结点处的词汇作为所述路径动词。
3.根据权利要求1或2所述的方法,其特征在于,所述分别查找所述两个中文实体和路径动词的语义信息,具体包括:
利用预存的词语与基本义原的映射表,分别查找与所述两个中文实体和路径动词对应的基本义原;
当查找到与所述两个中文实体和路径动词对应的基本义原时,将查找到的基本义原作为语义信息;
当词语具有多个基本义原时,所述映射表中仅包含所述词语与其第一基本义原的映射关系。
4.根据权利要求3所述的方法,其特征在于,当未在所述映射表中查找到与中文实体对应的基本义原时,所述方法还包括:
对所述未查找到基本义原的中文实体进行分词处理,获得多个新的中文子实体;
利用所述映射表,查找与所述多个新的中文子实体中出现位置最靠后的中文子实体对应的基本义原;
将查找到的中文子实体的基本义原作为所述未查找到基本义原的中文实体的语义信息。
5.根据权利要求4所述的方法,其特征在于,当未查找到与所述位置最靠后的中文子实体对应的基本义原时,将所述未查找到基本义原的中文实体的语义信息赋值为“NULL”。
6.根据权利要求1或2所述的方法,其特征在于,所述分别查找所述两个中文实体和路径动词的语义信息,具体包括:
利用预存的词语与语义编码的映射表,分别查找与所述两个中文实体和路径动词对应的语义编码;
当查找到与所述两个中文实体和路径动词对应的语义编码时,在所述语义编码中从其高位截取预设位数的字符,将截取出的预设位数的字符作为语义信息;
当词语包括多个语义编码时,所述映射表仅包含所述词语与其第一语义编码的映射关系。
7.根据权利要求6所述的方法,其特征在于,当在所述映射表中未查找到与中文实体对应的语义编码时,所述方法还包括:
对所述未查找到语义编码的中文实体进行分词处理,获得多个新的中文子实体;
利用所述映射表,查找与所述多个新的中文子实体中出现位置最靠后的中文子实体对应的语义编码;
在查找到的中文子实体的语义编码中,从其高位截取预设位数的字符,将截取出的预设位数的字符作为所述未查找到语义编码的中文实体的语义信息。
8.根据权利要求7所述的方法,其特征在于,当未查找到与所述位置最靠后的中文子实体对应的语义编码时,将所述未查找到语义编码的中文实体的语义信息赋值为“NULL”。
9.根据权利要求1所述的方法,其特征在于,所述按照预设规则将获取的三个语义信息加入所述最短路径包含树的根节点下,具体包括:
在所述最短路径包含树的根结点下添加三个标识结点,所述三个标识结点分别用于标识其子结点处的词汇为第一中文实体的语义信息、第二中文实体的语义信息和路径动词的语义信息,所述第一中文实体为所述两个中文实体中在所述自然语句出现位置靠前的中文实体;
将所述三个语义信息分别写入与其相应的标志结点的子结点处。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210294437.1/1.html,转载请声明来源钻瓜专利网。