[发明专利]一种自然语言句子的语义关系树的构造和比较方法无效
| 申请号: | 200810243607.7 | 申请日: | 2008-12-10 |
| 公开(公告)号: | CN101446944A | 公开(公告)日: | 2009-06-03 |
| 发明(设计)人: | 周国栋;钱培德;朱巧明;李培峰;李军辉;孔芳;王红玲;钱龙华 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 苏州创元专利商标事务所有限公司 | 代理人: | 陶海锋 |
| 地址: | 215123江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自然语言 句子 语义 关系 构造 比较 方法 | ||
技术领域
本发明涉及一种对自然语言的语义关系进行分析的方法,尤其涉及语义关系树的构造及其比较的方法,属于计算语言学中的自然语言处理领域。
背景技术
在许多自然语言理解系统中,不但要识别文本中的实体,而且还要根据上下文确定和抽取这些实体之间的各种语义关系,即进行实体间语义关系抽取(简称语义关系抽取或关系抽取)。通常,实体关系的类型是预先定义的,例如某人是否在某地。实体间语义关系的抽取不仅是信息抽取中的重要环节,而且在问答系统、知识获取和自然语言接口等应用中也非常重要。
语义关系抽取要借助多种自然语言理解技术,对文本中的句子进行分析处理后才能完成;同时,语义关系抽取也依赖于机器学习方法。采用机器学习方法来实现语义关系抽取时,往往将它转换成一个关系分类问题,即分类器把已经标注的语料库作为训练集,采用一定的分类方法产生分类模型,然后利用分类模型从未知文本中找出相应的语义关系。
根据语义关系实例表示方法的不同,基于机器学习的关系抽取分为基于特征的机器学习方法和基于核函数的机器学习方法。基于特征的机器学习方法通过获取各种有效的词法、语法、语义等特征,并把它们有效地集成起来,从而产生描述实体对象关系的各种局部特征和简单的全局特征。基于核函数的方法可以充分利用(序列化数据中的)长距离特征和(结构树中的)结构化特征,直接计算两个特征向量甚至两个对象(如语法结构树)之间的相似度来进行分类,这使得基于核函数的方法理论上可探索隐含的高维特征空间。
基于核函数的语义关系抽取的主要问题包括:(1)有效的机器学习方法,即如何利用更有效的机器学习方法来提高关系抽取的性能和效率;(2)语义关系树的自动获取,即如何根据语言学知识,从句法树中自动获取语义关系树(3)树核函数的构造,即如何有效比较一对语义关系树之间的相似度。目前对第一个方面的研究已取得很多成熟的方法,如最大熵、条件随机场和支撑向量机等分类器。而对于其它两个方面的研究还处于初步阶段,要使抽取出的语义关系树既涵盖关键的结构化句法信息,又要减少不必要的噪音,同时,语义关系的比较方法(即树核函数的构造)要更好地体现语义关系抽取所需的各种结构化句法信息,这些都具有一定的难度。
发明内容
本发明目的是本发明的目的是提供一种通过考虑上下文相关信息,从句法树中产生和比较语义关系树的方法,来解决语义关系抽取的性能问题。通过使用本发明所提供的方法,可构造一个基于机器学习的关系抽取系统,达到提高关系抽取性能的目的。
为达到上述目的,本发明采用的技术方案是:一种自然语言句子的语义关系树的构造方法,对于句子中待建立语义关系树的两个实体,采用下列构造方法:
(1)采用语法分析器产生与句子相对应的句法树;
(2)在句法树中确定两个实体的位置,方法是,依据两个实体的外延范围在句法树中从词汇结点向上寻找,直到发现一个共同结点,即把它确定为实体在句法树中的位置;
(3)在句法树中找出连接两实体的最短路径,分别从两个实体结点出发,向上搜索,并记录经过的路径,直到发现一个最近的共同祖先结点,此时搜索过程中记录下的连接两实体的路径即为最短路径;
(4)在语义关系树中,保留最短路径及其所包含的部分,裁剪掉其余部分,最后得到的最小的语义关系树即为最短路径包含树;
(5)确定句法树中两实体之间存在的结构类别,如果两个实体之间用一个逗号分隔,则为半结构化;如果第二个实体是以介词短语形式修饰第一个实体,则为PP附属结构;如果第二个实体的外延包含了第一个实体,则为嵌入式结构;如果两个实体作为名词短语紧接在一起,则为描述性结构;除此之外的所有结构均视作谓词链接结构;
(6)如果两实体之间的结构类型不是谓词结构,则最短路径包含树即为我们所需要的语义关系树;
如果两实体之间的结构类型是谓词链接结构,则扩展与谓词相关的上下文信息,得到上下文相关的路径包含树,其方法是,首先从最短路径包含树的根节点开始向上移动直到找到一个以谓词为中心词的节点,然后沿着以该谓词为中心词的路径找到该谓词,这样被最短路径包含树和该谓词查找路径所涵盖的子树即我们要找的动态语义关系树。
一种自然语言句子的语义关系树的比较方法,对采用上述方法获得的两棵语义关系树T1和T2,采用下列方法进行比较:
(1)列出树T1和T2中除叶结点以外的所有结点列表L1和L2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810243607.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种障碍物分割方法及装置
- 下一篇:存储设备操作的方法、控制器及通信系统





