[发明专利]一种针对博文的相似度计算方法有效
| 申请号: | 201310538588.1 | 申请日: | 2013-11-04 |
| 公开(公告)号: | CN103646029A | 公开(公告)日: | 2014-03-19 |
| 发明(设计)人: | 王欢龙 | 申请(专利权)人: | 北京中搜网络技术股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
| 地址: | 100191 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 相似 计算方法 | ||
技术领域
本发明属于电子识别技术领域,具体涉及一种针对博文的相似度计算方法。
背景技术
相似博文(微博内容,以下简称博文)在微博中的大量存在,给微博搜索应用带来了多方面的问题,如采集系统反复抓取同样内容的博文给索引导致索引的重复与额外存储空间的消耗,并降低了微博搜索应用的性能和用户体验。因此,若有效的相似博文计算算法能够去除大量的相似博文,则可以大大减轻微博搜索应用的负担和提升微博搜索应用的性能与用户体验。
目前国内外还没有什么比较好的针对博文的相似度计算方法,这里介绍几个比较流行的网页相似度计算方法,有基于网页特征码的算法,基于关键词的算法,Charikar的Simhash算法和Broder的Shingle算法等。
基于网页特征码的算法,该算法的关键是对网页特征的提取,以句号为中心,在句号两边各取长度相等的一串字词作为网页的特征码,提取出特征码后可以采用B-Tree来组织这些特征码以便快速的查找是否出现了相同网页,然后计算两个网页的特征码集的重叠率作为网页的相似度。若相似度超过某个设定的临界值,则判定两个网页相似。
基于网页关键词的算法,该算法是首先通过对网页的解析,提取出网页标题的关键词,然后在网页正文中获取和标题关键词相关度高的其他关键词形成该网页的关键词集。当需要对一个网页判定是否存在重复网页的时候,可以在倒排表中查询包含该网页关键词集中的全部或部分关键词的网页,然后计算两个网页的关键词集的重叠率作为网页的相似度。若相似度超过某个设定的临界值,则判定两个网页相似。
Simhash该算法可以将一个多维向量映射成一个只需较小存储空间的指纹(Fingerprint),它是一种指纹识别技术,该技术拥有两个看似冲突的重要性质:首先,一个文档的指纹是这个文档的特征集的“哈希”;其次,相似文档有着相似的哈希,即相似文档的指纹只有少数bit不相同。当要计算两个网页的相似度的时候,可以计算两个指纹(二进制向量)之间的Hamming距离,即两个二进制向量中不相同位的个数。如果该值足够小,即Hamming距离小于某个设定的临界值时,则可以判定两个网页相似。
Shingle算法的设计思想则是通过对网页文本信息的处理,得到k个连续单词序列,这个连续单词序列构成一个Shingle,网页最后就由一个shingle的集合来表示。所有网页的shingle集合最后采用一种类似于倒排索引方式的倒排表来存储,如(Shingle,文 档ID)以标示某个shingle出现在某个网页文档中。如果两个网页非常相似,则网页中很可能会有公共shingle,公共的shingle越多,网页越相似,从而判定两个网页的相似度。
Simhash和Shingle都需要对文本提取出多个hash数值才可以继续,所以它比较耗费CPU和内存资源,针对即时性要求高的微博搜索应用来说不太适用。
基于特征值的算法需要以句号为中心择取多个特征值来做相似判断,而微博这种短文本存在句号的可能性和数量都不高,所以该算法不太适合微博搜索应用。
基于关键词的算法需要网页标题,博文不存在网页标题,所以不完全适用于微博搜索引擎的应用。
发明内容
为了克服上述现有技术的不足,本发明提供一种简单高效的博文相似度计算方法,实现微博搜索引擎对及时性和高效性的要求。
为了实现上述发明目的,本发明采取如下技术方案:
一种针对博文的相似度计算方法,其特征在于,所述方法包括以下步骤:
A.预处理博文;
B.分别计算处理后的原文和转发文中所有词语的权重;
C.合并原文和转发文的权重,并将所得结果按降序排列;
D.生成指纹。
优选地,所述步骤A包括:去除博文中的无用信息,将大写字母转为小写,并对提取后的文本分词,统计各个切分词语的词频。
优选地,所述步骤B中计算原文词语的权重如下式表达:
计算转发文词语的权重如下式表达:
式中,C原为原文中切分词语的总数,C转为转发文中切分词语的总数,TF为切分词语在文中的词频,IDF为逆向文件频率,代表着该词的区分度,从已有词典中直接取得。
优选地,步骤C中,所述合并为:将原文和转发文中相同切分词语的权重相加,作 为该词语在整篇博文中的权重。
优选地,所述步骤D包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310538588.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:DRC文件的坐标数据对比方法
- 下一篇:可调光子晶体滤色器和彩色图像显示装置





