[发明专利]一种基于内容相关度的检索模型计算方法在审
| 申请号: | 201610474582.6 | 申请日: | 2016-06-23 |
| 公开(公告)号: | CN106649423A | 公开(公告)日: | 2017-05-10 |
| 发明(设计)人: | 贾海龙 | 申请(专利权)人: | 新乡学院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 汤东风 |
| 地址: | 453000 河*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 内容 相关 检索 模型 计算方法 | ||
技术领域
本发明涉及一种网络技术方法,尤其涉及一种基于内容相关度的检索模型计算方法。
背景技术
搜索引擎提供信息查询服务的时候,它面对的只是查询词。而有不同背景的人可能提交相同的查询词,但是关心的信息却有可能是和查询词不同的方面,搜索引擎通常是不知道用户背景的,因此搜索引擎既要争取不漏掉任何相关的信息,还要争取将那些尽可能被关注的信息排在检索列表的前面,这是用户对搜索引擎的基本要求。因此对网络爬虫爬取来的网页进行排序是搜索引擎最核心的部分,其很大程度上决定了搜索引擎质量的好坏及用户满意度。实际检索结果排序的因子有很多,但最主要的三个因素是网页内容的相关度、网页链接关系和用户查询意图。
发明内容
本发明的目的就在于为了解决上述问题而提供一种改进HMM模型聚类策略的方法。
本发明通过以下技术方案来实现上述目的:
本发明包括相似性计算和特征权值计算;
所述相似性计算:将文档转换为特征向量后,就可以计算文档之间或者是查询和文档之间的相似性了,对于搜索排序这种任务来说,给定用户输入的查询,计算查询和网页内容之间的“相关性”,即文档是否和用户需求相关,之后按照相关程度由高到低排序,向量空间模型将问题做了转换,即以查询和文档之间的内容相似性作为相关性的替代,按照文档和查询的相似性得分由高到低排序作为搜索结果,给定用户查询特征向量和文档特征向量,Cosine相似性是最常用也是非常有效的计算相似性的方式,Cosine相似性计算定义如下式:
公式(1)是计算用户查询Q,Di的文档相似性,式中的分子部分,将文档的每个特征权值和查询的每个特征权值相乘取和,这个过程也叫做求两个向量的点积;公式的分母部分是两个特征向量在欧式空间中长度的乘积,作为对点积计算结果的规范化,之所以要对特征向量的长度做规范化操作,主要是对长文档的一种惩罚机制,否则的话,计算结果往往是长文档得分较高,而这并非因为长文档与查询更相关,而是因为其长度较长,导致特征权值比短文档要大,所以加入规范化操作抑制长文档在排序中的位置,
为了便于理解Cosine相似性,可以将每个文档及查询看作是t维特征空间中的一个数值点,每个特征形成t维空间中的一个维度,连接特征空间原点和这个数值点形成一个向量,而Cosine相似性就是计算特征空间中两个向量之问的夹角,这个夹角越小,说明两个特征向量内容越相似,夹角越大,说明两个向量内容越不同,考虑一种极端情况:两个完全相同的文档,其在向量空间中的两个向量是重叠的,通过Cosine相似性计算得到的相似性结果为1;
所述特征权值计算:查询中的关键词权重应该反映这个词对查询的重要性,网页文档和用户查询词被转换为特征向量时,每个特征都会赋予一定的权值,在向量空间模型里,特征权值的计算框架一般被称作Tf-IDF框架,虽然具体计算方式可以有多种,但是大都遵循这一框架,而这一计算框架考虑的主要计算因子有两个:词频Tf和逆文档频率IDF,
(1)词频因子(Tf)
Tf算因子代表了词频,即一个单词在文档中出现的次数,在某个文档中反复出现的单词,往往能够表征文档的主题信息,即Tf值越大,越能代表文档所反映的内容,那么应该给予这个单词更大的权值,这是为何引入词频作为计算权值的重要因子的原因,
具体计算词频因子的时候,基于不同的出发点,可以采纳不同的计算公式,最直接的方式就是直接利用词频数,比如文档中某个单词出现过5次,就将这个单词的Tf值计为5,一种词频因子的变体计算如公式(2)所示,
WTf=1+log(Tf) (2)
式中将词频数值Tf取log值作为词频权值,比如单词在文档中出现过4次,则其词频因子权值是3,公式中的数字1是为了平滑计算用的,因为如果Tf值为1的情况下,取Log后值为0,即本来出现了一次的单词,按照这种方法计算会认为这个单词从来没有在文档中出现过,为了避免这种情形,采用加1的方式来进行平滑,之所以要对词频取log,是基于如下考虑:即使一个单词出现了10次,也不应该在计算特征权值时,比出现1次的情况权值大10倍,所以加入log机制抑制这种过大的差异,
另外一种单词词频因子的变体计算公式是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新乡学院,未经新乡学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610474582.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:关键词提取方法及装置
- 下一篇:基于设计逻辑的参数化建筑设计工法
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





