[发明专利]一种基于查询结果的语义相关度计算方法无效
申请号: | 201110123276.5 | 申请日: | 2011-05-12 |
公开(公告)号: | CN102184233A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 方俊;郭雷;常威威 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于查询结果的语义相关度计算方法,首先使用检索系统对词进行检索,得到相应的统计信息和内容信息,然后利用检索得到的统计信息和内容信息分别来计算词之间的统计相关度和内容相关度,最后,将统计相关度和内容相关度相综合得到词之间最终的语义相关度。利用本发明方法计算词之间的相关度具有较高的准确度,没有语言和词性的限制,并且其结果还能反映词之间相关度动态变化的特点,能对非英语和不同词性的词进行准确的相关度计算。 | ||
搜索关键词: | 一种 基于 查询 结果 语义 相关 计算方法 | ||
【主权项】:
1.一种基于查询结果的语义相关度计算方法,其特征在于步骤如下:步骤一:利用检索系统获取两个词t1和t2的统计信息和内容信息,所述的统计信息就是采用检索系统的编程接口分别检索词t1、t2和t1 AND t2,返回的对应的网页数目Hits1、Hits2和Hits12;所述的内容信息就是采用检索系统的编程接口分别检索词t1、t2,返回的对应的前n个网页的集合Content1和Content2,所述的AND表示逻辑与,所述的n的取值范围为5~10;步骤二:利用步骤一得到的统计信息和内容信息分别计算词t1和t2的统计相关度和内容相关度;所述的统计相关度的计算公式为:
其中,rels表示统计相关度,min{Hits1,Hits2}表示取Hits1、Hits2两者中的最小值;所述的内容相关度的具体计算过程为:步骤a:分别构建词t1和t2的上下文向量,对于词t1:首先,去除网页集合Content1中所有网页中的除名词、动词、形容词和副词以外的所有词,得到词t1的词序列集合w1;然后,统计词序列集合w1中每一个词在网页集合Content1所包含的所有网页中出现的次数总和,得到词序列集合w1对应的频率值集合p1;最后,以词序列集合w1中的词为不同的维度、以频率值集合p1中对应的频率值为相应维度上的值构造得到词t1的上下文向量
对于词t2:首先,去除网页集合Content2中所有网页中的除名词、动词、形容词和副词以外的所有词,得到词t2的词序列集合w2;然后,统计词序列集合w2中每一个词在网页集合Content2所包含的所有网页中出现的次数总和,得到词序列集合w2对应的频率值集合p2;最后,以词序列集合w2中的词为不同的维度、以频率值集合p2中对应的频率值为相应维度上的值构造得到词t2的上下文向量
所述的词序列集合仅由名词、动词、形容词和副词构成;所述的频率值集合中的频率值即为词序列集合中每个词出现的次数总和,与词序列集合中的词相对应;所述的上下文向量的维数等于词序列集合中词的个数;步骤b:对齐词t1和t2的上下文向量
具体为:首先,合并上下文向量
的所有维度,得到新的维度序列;然后,对照新的维度序列分别重新排列上下文向量
中的值,对于新的维度序列中存在而上下文向量
中不存在的维度,令上下文向量
中对应该维度的值为零,得到对齐后的词t1和t2的上下文向量
步骤c:利用夹角余弦公式
计算得到t1和t2的内容相关度;其中,relc表示内容相关度;步骤三:按rel=α×rels+(1-α)×relc计算得到词t1和t2的最终的语义相关度;所述的α的取值范围为0.3~0.7。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110123276.5/,转载请声明来源钻瓜专利网。
- 上一篇:基于非局部约束的全变分图像去模糊方法
- 下一篇:防风衣架