[发明专利]一种搜索方法及装置有效
申请号: | 201210031523.3 | 申请日: | 2012-02-13 |
公开(公告)号: | CN103246681B | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 路彦雄;杨月奎;王亮;焦峰 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 刘杰 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 装置 | ||
1.一种搜索方法,其特征在于,包括:
获取待搜索信息的关联文档;
基于词匹配算法及语义匹配算法,计算获取到的每一个关联文档与所述待搜索信息的相关度;
根据计算得到的相关度对获取到的关联文档进行排序,并显示排序结果;
所述基于词匹配算法及语义匹配算法,计算获取到的每一个关联文档与所述待搜索信息的相关度,包括:对所述待搜索信息进行向量化处理,将所述待搜索信息分割成m个词,获得m个向量ti,其中,m和i均为正整数,且1≤i≤m;对获取到的每一个关联文档进行向量化处理;根据所述待搜索信息向量化后获得的m个向量ti,得到每个向量ti在所述待搜索信息中的词频和每个向量ti在所述关联文档中的词频,并基于词匹配算法,计算得到每一个关联文档与所述待搜索信息的词匹配关联评分;将所述词匹配关联评分和基于语义匹配算法获得的语义关联评分,依据预先设置的权重加权获得所述相关度,其中,所述词匹配算法的公式为:其中,k1、k3、k、b为常数;qtfi为第i个向量ti在所述待搜索信息中的词频;tfi为向量ti在相应的关联文档中的词频;l为该相应关联文档的长度,avdl为获取到的所有关联文档的平均长度;wi为向量ti的权重。
2.如权利要求1所述的方法,其特征在于,所述基于词匹配算法及语义匹配算法,计算获取到的每一个关联文档与所述待搜索信息的相关度,还包括:
对获取到的每一个关联文档进行向量化处理,获得每一个关联文档所对应的n个向量dj,其中,n和j均为正整数,且1≤j≤n;
基于语义匹配算法,计算得到向量化后的每一个关联文档与所述待搜索信息的关联评分S2;
根据公式S=α×S1+(1-α)×S2,计算得到每一个关联文档与所述待搜索信息的相关度S,其中,S1为每一个关联文档与所述待搜索信息的词匹配关联评分,α为预设的权重,且0<α<1。
3.如权利要求1所述的方法,其特征在于,向量ti的权重的计算公式如下:
其中,H为获取到的所有关联文档的个数,htfi为向量ti在所有关联文档中的词频。
4.如权利要求2所述的方法,其特征在于:所述语义匹配算法的公式为:
其中,k1、k3、k、b为常数;l为相应关联文档的长度,avdl为获取到的所有关联文档的平均长度;mi(ti,dj)为向量ti与向量dj的互信息。
5.如权利要求4所述的方法,其特征在于,向量ti与向量dj的互信息的计算公式如下:
其中,c(ti,dj)表示在网络中,向量ti与向量dj同时出现在同一篇文档中的次数;
c(ti)表示在网络中,向量ti出现的次数;
c(dj)表示在网络中,向量dj出现的次数。
6.如权利要求1-5任一项所述的方法,其特征在于,所述根据计算得到的相关度对获取到的关联文档进行排序,并显示排序结果,包括:
根据每一个关联文档与所述待搜索信息的相关度,按照相关度从高至低的顺序对所有关联文档进行排序;
显示排序后的所有关联文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210031523.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能制动弹簧料盒
- 下一篇:化学机械抛光设备