[发明专利]一种基于维基百科双向链接的词语语义相关度判断方法有效
申请号: | 201811108647.0 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109325230B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 朱新华;郭青松;张兰芳;陈宏朝 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F16/30 |
代理公司: | 南宁东智知识产权代理事务所(特殊普通合伙) 45117 | 代理人: | 巢雄辉;汪治兴 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 百科 双向 链接 词语 语义 相关 判断 方法 | ||
本发明公开了一种基于维基百科双向链接的词语语义相关度判断方法,对于任意两个词语有:S1.在维基百科数据资源库中分别获取两个词语的定位页面;S2.若定位页面为内容页面,即是义项页面,转S3;若定位页面为消歧页面,进行消岐处理,转S3;S3.计算出两个词语每一个义项页面的概念语义解释,概念语义解释为一个双向链接向量;S4.计算两个词语义项页面间的双向链接向量的余弦,获得每一对义项概念间的语义相关度,将最大值作为两个词语的语义相关度。本发明把维基百科中页面的入链接和出链接作为页面特征,构建描述概念语义的特征向量模型,并结合一种基于社会认知度的消岐策略,提高了基于维基百科链接的词语语义相关度计算的准确度。
技术领域
本发明涉及人工智能领域中的自然语言处理技术领域,更具体的涉及一种基于维基百科双向链接的词语语义相关度判断方法。
背景技术
维基百科是一个允许用户编辑的开放式文本语料库,具有共同编辑的分类结构,由来自世界各地的志愿者编辑和维护。一方面,它具有类似于WordNet的分类结构。另一方面,在维基百科中,每个概念或条目都有相应的Web文档来定义和详细介绍它。由于其显著的覆盖范围和快速更新,越来越多的研究人员使用维基百科来计算近年来的词汇相关性。作为一个百科全书,维基百科包含各种数据,包括类别、层次结构、文章和页面之间的链接。自2001年推出后得到了迅猛增长,截止到2017年10月2日,共涵盖299种语言,维基百科每月发布两次数据库备份转储,为基于维基百科数据资源库的研究和应用提供便利。维基百科的基本信息单元是页面,其中页面分为内容页面、消岐页面和类目页面,每一个页面的底部都列出该页面所从属的类目。内容页面通过文本定义概念词语,并显示与该概念词语相关的信息内容,文本中以超链接的形式包括了用于定义该词语的其他页面,比如“UnitedStates”页面定义了“美国”这一概念,并呈现关于“美国”的相关信息内容,其中包括了1632个超链接;消歧页面用于解决一词多义的问题,它以列表的方式呈现该词语的所有义项页面超链接,比如“Apple(disambiguation)”页面呈现了词语“Apple”的59个义项页面;类目页面用于以列表的形式呈现该类别的主页面、子类别、从属页面等信息,比如“Category:Fruit”页面呈现了该类别的1个主页面、4个直接子类别和12个从属页面的信息。
目前基于维基百科本体的词语语义相关度的判断方法主要可分为四种类型:仅基于类别结构的度量(WCG)、基于文本语义分析的度量(ESA)、基于类向量的度量(WCVM)和基于链接向量的度量(WLVM)。其中基于WCG的方法以维基百科的类目结构作为语义计算的本体模型基础,把基于语义词典语义相关度计算方法扩展到基于维基百科的相关度计算。该方法可以追溯到Strube等人在2006年提出WikiRelate!方法(M.Strube,S.P.Ponzetto,WikiRelate!computing semantic relatedness using wikipedia,in NationalConference on Artificial Intelligence AAAI Press,2006,pp.1419-1424.),该方法借鉴了基于语义词典的路径计算方法,是最早把维基百科作为知识来源的词语相关度计算方法。但是由于维基百科由众多用户共建而成,使其类目结构并不严谨,作用主要是词语推荐和网站导航。因此,基于WCG的方法均需要进行复杂的类目数据预处理,计算准确率并不理想。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811108647.0/2.html,转载请声明来源钻瓜专利网。