[发明专利]词义消歧方法和系统无效
| 申请号: | 200910129454.8 | 申请日: | 2009-03-20 |
| 公开(公告)号: | CN101840397A | 公开(公告)日: | 2010-09-22 |
| 发明(设计)人: | 李建强;赵彧;刘博 | 申请(专利权)人: | 日电(中国)有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 李晓冬;南霆 |
| 地址: | 100007 北京市东城区东四十*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 词义 方法 系统 | ||
技术领域
本发明一般地涉及自然语言处理,更具体而言,涉及词义理解以及词义消歧方法和系统。
背景技术
所谓词义消歧就是要在特定的上下文环境中确定多义词的词义,其在自然语言处理、信息检索、信息抽取、本体集成等领域都有广泛的应用。
目前的词义消歧方法都是针对文本或句子中的目标词汇而进行的。一般而言,目标词汇的文本上下文环境构成区分词义的特征空间,具体可能包括目标词汇的临近词语、固定搭配、或根据句子结构分析而获得的其他语法特征。
已有的词义消歧方法主要利用来源于文本上下文环境的语法特征来区分词义,当应用这些方法对出现在本体或者具有层次结构的概念/类别中的目标词汇进行词义消歧时,不能取得理想的效果。下面简要介绍目前现有技术中已经存在的一些相关技术。
例如,在Kilgarriff,A.、Rosenzweig,J.等人于2000年发表的文章“Framework and Results for English SENSEVAL,Computers and theHumanities,34”(第15-48页)中列举了一些词义消歧方法,他们主要首先基于语法分析从目标词汇的文本上下文结构中获得相应的语法特征(主要包括和目标词汇在一定距离窗口之内的并现词汇,固定搭配,主谓宾结构分析等),进而通过统计方法达到辨别目标词汇词义的目的。
另外,日本专利JP2002-082943描述了一种针对出现在网页中的命名实体进行语义消歧方法。其独特之处在于除了利用目标词汇所在的网页中出现的语法特征之外,出现在和目标词汇所在网页具有超级链接关系的网页中的语法特征也被考虑进来,实现命名实体的语义消歧。图1示出该词义消歧系统的结构框图,而图2示出利用图1所示系统进行词义消歧的一个示意性实例。
如图1所示,该词义消歧系统100由两部分组成,即提供存储的存储部件和作为主要处理部件的基于文本上下文的词义消歧部件。基于文本上下文的词义消歧部件包括词汇输入装置101、文本上下文抽取装置102、基于文本上下文的词义打分装置103以及词义选择装置104。参考图2所示示例,文本上下文抽取装置102在进行文本上下文抽取时,除了考虑目标词汇“bass”所在网页的语法特征之外,还将与目标词汇所在网页具有超级链接关系的网页中的语法特征也考虑进来,从而得到完整的文本上下文。例如如图2所示,得到共现词汇“go”、“fish”和“sea”。在得到共现词汇之后,基于文本上下文的词义打分装置103根据共现词汇对目标词汇“bass”在词典中给出的各种词义进行打分。例如,基于文本上下文的词义打分装置103可以通过计算文本上下文中所有共现词汇与词典中每个词义定义之间的相似度来作为词义得分。然后,词义选择装置104可以选择具有较高相似度得分的词义作为正确词义。例如,在图2所示示例中,词义选择装置104选择目标词汇“bass”的词义“一种鱼”作为最终词义。这种词义消歧方法的缺陷在于,从文本上下文中获得的所有共现词汇在最终的词义打分中具有相同的权重,而事实上共现词汇“go”对词义打分没有很强的贡献,甚至对最终的词义消歧结果具有负面作用。但是,不同共现词汇对于词义消歧结果的影响并未被考虑进来。
如前所述,目前现有技术中的词义消歧方法主要利用来自目标词汇的文本上下文中的语法特征进行词义的辨别。如果利用这些方法对本体和层次性分类结构中的目标词汇进行语义消歧,由于他们只考虑目标词汇的语法特征,而本体或层次性分类模式中所蕴含的大量的语义特征没有被利用,因此造成词义消歧效果和精度不理想。
发明内容
本发明旨在解决上述现有词义消歧方法中存在的诸多问题。根据本发明的原理,首先从本体或层次化分类模式中确定目标词汇所在的概念,以及此概念与其他概念的各种语义关系等(即,抽取概念上下文)。然后,根据目标词汇的概念上下文所蕴含的语义特征针对目标词汇在词义字典中的词义进行打分排序,其打分排序的结果作为词义消歧的主要依据。
根据本发明第一方面,提供了一种利用语义特征进行词义消歧的方法,其包括:输入目标词汇,其具有多种词义;从相关本体抽取所述目标词汇所在的概念以及在本体中的概念上下文;基于所述概念上下文对所述目标词汇的各种词义进行打分;以及根据所述打分结果选择所述目标词汇的适当词义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910129454.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大水面无围栏规模生态养殖中华鳖的方法
- 下一篇:共享上网用户识别方法及装置





