[发明专利]一种基于查询结果的语义相关度计算方法无效

专利信息
申请号: 201110123276.5 申请日: 2011-05-12
公开(公告)号: CN102184233A 公开(公告)日: 2011-09-14
发明(设计)人: 方俊;郭雷;常威威 申请(专利权)人: 西北工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西北工业大学专利中心 61204 代理人: 王鲜凯
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种基于查询结果的语义相关度计算方法,首先使用检索系统对词进行检索,得到相应的统计信息和内容信息,然后利用检索得到的统计信息和内容信息分别来计算词之间的统计相关度和内容相关度,最后,将统计相关度和内容相关度相综合得到词之间最终的语义相关度。利用本发明方法计算词之间的相关度具有较高的准确度,没有语言和词性的限制,并且其结果还能反映词之间相关度动态变化的特点,能对非英语和不同词性的词进行准确的相关度计算。
搜索关键词: 一种 基于 查询 结果 语义 相关 计算方法
【主权项】:
1.一种基于查询结果的语义相关度计算方法,其特征在于步骤如下:步骤一:利用检索系统获取两个词t1和t2的统计信息和内容信息,所述的统计信息就是采用检索系统的编程接口分别检索词t1、t2和t1 AND t2,返回的对应的网页数目Hits1、Hits2和Hits12;所述的内容信息就是采用检索系统的编程接口分别检索词t1、t2,返回的对应的前n个网页的集合Content1和Content2,所述的AND表示逻辑与,所述的n的取值范围为5~10;步骤二:利用步骤一得到的统计信息和内容信息分别计算词t1和t2的统计相关度和内容相关度;所述的统计相关度的计算公式为:其中,rels表示统计相关度,min{Hits1,Hits2}表示取Hits1、Hits2两者中的最小值;所述的内容相关度的具体计算过程为:步骤a:分别构建词t1和t2的上下文向量,对于词t1:首先,去除网页集合Content1中所有网页中的除名词、动词、形容词和副词以外的所有词,得到词t1的词序列集合w1;然后,统计词序列集合w1中每一个词在网页集合Content1所包含的所有网页中出现的次数总和,得到词序列集合w1对应的频率值集合p1;最后,以词序列集合w1中的词为不同的维度、以频率值集合p1中对应的频率值为相应维度上的值构造得到词t1的上下文向量对于词t2:首先,去除网页集合Content2中所有网页中的除名词、动词、形容词和副词以外的所有词,得到词t2的词序列集合w2;然后,统计词序列集合w2中每一个词在网页集合Content2所包含的所有网页中出现的次数总和,得到词序列集合w2对应的频率值集合p2;最后,以词序列集合w2中的词为不同的维度、以频率值集合p2中对应的频率值为相应维度上的值构造得到词t2的上下文向量所述的词序列集合仅由名词、动词、形容词和副词构成;所述的频率值集合中的频率值即为词序列集合中每个词出现的次数总和,与词序列集合中的词相对应;所述的上下文向量的维数等于词序列集合中词的个数;步骤b:对齐词t1和t2的上下文向量具体为:首先,合并上下文向量的所有维度,得到新的维度序列;然后,对照新的维度序列分别重新排列上下文向量中的值,对于新的维度序列中存在而上下文向量中不存在的维度,令上下文向量中对应该维度的值为零,得到对齐后的词t1和t2的上下文向量步骤c:利用夹角余弦公式计算得到t1和t2的内容相关度;其中,relc表示内容相关度;步骤三:按rel=α×rels+(1-α)×relc计算得到词t1和t2的最终的语义相关度;所述的α的取值范围为0.3~0.7。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110123276.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top