[发明专利]一种基于维基百科度量概念之间语义相关度的方法无效
申请号: | 201210037968.2 | 申请日: | 2012-02-17 |
公开(公告)号: | CN102646113A | 公开(公告)日: | 2012-08-22 |
发明(设计)人: | 郝宇;黄民烈;朱小燕 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 冯梦洪 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 百科 度量 概念 之间 语义 相关 方法 | ||
1.一种基于维基百科度量概念之间语义相关度的方法,其特征在于:包括离线步骤和在线步骤:
在离线步骤中,从维基百科的原始数据中生成概念之间的初始关系和概念与类别之间的初始关系;用一个迭代算法来将两种关系相互平滑,最后存储到索引中;
在在线步骤中,给定一个概念,推荐和这个概念语义上最相关的概念,并用维基分类来表示每个推荐出来的概念和原概念之间的关系。
2.根据权利要求1所述的基于维基百科度量概念之间语义相关度的方法,其特征在于:离线步骤包括以下分步骤:
(1.1)从维基百科数据中提取概念和概念之间通过锚文本链接得到的链接关系,并初始化得到概念-概念关系矩阵R,其中Rij为概念i和概念j之间的语义关连强度,初始化如下:
其中I是单位矩阵,MR为概念-概念之间的链接矩阵,即如果概念i和概念j通过锚文本直接相连(MR)ij=1,否则(MR)ij=0,μG用来调节I和MR对初始化所起的作用;
(1.2)从维基百科数据中提取概念和分类之间通过类别链接得到的链接关系,并初始化得到概念-分类关系矩阵C,其中Cij为概念i和分类j之间的语义关连强度,初始化如下:
其中MC为概念-分类之间的链接矩阵,即(MC)ij=1则概念i和分类j通过分类链接直接相连,否则(MC)ij=0;用来补充使得C(0)的行和大于零,定义为:如果概念i是第j个没有任何分类链接的概念,
(1.3)进行迭代算法:
对于每次时间t,迭代计算矩阵C和矩阵R如下:
a.C(t)=R(t-1)C(t-1)
b.
c.R(t)=D(t)C(t)C(t)TD(t)T
在计算中,考虑到内存和计算时间因素,只计算C(1)和R(1),并只保留R(1)每一行的前若干个最大的值;
(1.4)为矩阵C(1)和矩阵R(1)建立索引:在为C(1)建索引时,索引的键值为概念的名称,内容值为和该概念最相关的前P个分类的id、名称以及相关度,P为正整数;在为R(1)建索引时,索引的key为概念的名称,value为和该概念最相关的前Q个概念的id、名称以及相关度,Q为正整数。
3.根据权利要求2所述的基于维基百科度量概念之间语义相关度的方法,其特征在于:在线步骤包括以下分步骤:
(2.1)给定一个概念p,把其放到概念-概念索引中得到返回的最相似的一个概念p’,如果p’和p的编辑距离小于指定阈值,则认为检索成功,否则检索失败;如果检索成功,把p’的相关概念p’1,p’2...,p’k作为p的相关概念,其中k是检索来的p’的相关概念个数,为正整数;
(2.2)把p’以及p’1,p’2...,p’k放到概念-分类索引中得到和每个概念相关连的分类以及其关联强度,这样把每个概念都映射到了分类空间;
(2.3)对于p’和每个相关概念p’i,1≤i≤k,i是正整数,对其映射到分类空间的向量计算余弦距离,并将对余弦距离贡献最大的那一维所对应的分类当做p和p’之间的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210037968.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有效治疗肺病的药物
- 下一篇:一种三出水的龙头