[发明专利]一种基于维基百科双向链接的词语语义相关度判断方法有效
申请号: | 201811108647.0 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109325230B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 朱新华;郭青松;张兰芳;陈宏朝 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F16/30 |
代理公司: | 南宁东智知识产权代理事务所(特殊普通合伙) 45117 | 代理人: | 巢雄辉;汪治兴 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 百科 双向 链接 词语 语义 相关 判断 方法 | ||
1.一种基于维基百科双向链接的词语语义相关度判断方法,其特征在于:
对于任意的两个词语word1和word2的语义相关度,通过以下步骤进行判断:
S1.在维基百科数据资源库中分别获取两个词语的定位页面;
S2.若步骤S1获得的定位页面属于内容页面,则定位页面即是义项页面,此时该词语的义项页面序列数目为1,转步骤S3;若定位页面属于消歧页面,则先使用消岐算法进行消岐处理,获得多个义项页面,然后转步骤S3;
S3.计算出两个词语每一个义项页面的基于维基百科双向链接向量的概念语义解释,所述概念语义解释定义为一个维基百科双向链接向量Vc,该向量由两种类型的加权链接组成,即概念c的加权外链接和加权内链接;
S4.通过步骤S3计算的结果,计算两个词语义项页面间的双向链接向量的余弦,从而获得两个词语的每一对义项概念间的语义相关度,并将其中的最大值作为word1和word2的语义相关度;
所述步骤S2中,使用消岐算法进行消岐处理包括以下步骤:
S2-1.排序策略:使用基于社会认知度的排序策略对消歧页面中的外链接进行排序,所述基于社会认知度的排序策略是指直接按照外链接在消歧页面中出现的顺序对其进行排序;
S2-2.队列插队策略:优先选择消歧页面中包含了两个待比较词word1和word2的链接插入到步骤S2-1的队列前面:(1)首先选择消歧页面中链接形如“word1(word2)”或“word2(word1)”插入到步骤S2-1中已经排序过的队列前面;(2)如果没有如(1)的链接出现,则检索包含word1和word2的链接,并将其插入到步骤S2-1中队列的前面;
S2-3.有效项义项数量的选择策略:采用可调节的消歧阈值θ,来确定将从消歧页面中选择多少外链接作为有效项义项参与相关度计算,θ取值为1到外链接总数。
2.根据权利要求1所述的基于维基百科双向链接的词语语义相关度判断方法,其特征在于:
所述步骤S1中,获取定位页面包括以下步骤:
S1-1.若词语word只能检索到一个页面,则直接确定该页面为word的唯一定位页面;
S1-2.若词语word可以检索到多个页面,且存在标题为“word+(disambiguation)”或类目属于“Disambiguation pages”的页面,则把该页面加入到word定位页面序列,并结束页面定位,否则转步骤S1-3;
S1-3.若词语word可以检索到多个页面,且存在从word重定向的页面,则选取该重定向的页面加入到word的定位序列,然后结束页面定位,否则转步骤S1-4;
S1-4.若词语word可以检索到多个页面,且存在标题与word完全一致的页面,则把该页面加入word的定位页面序列;
对词语的维基百科页面定位过程结束后,最终的定位页面序列由1个页面组成,页面类型为内容页面或消歧页面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811108647.0/1.html,转载请声明来源钻瓜专利网。