[发明专利]基于倒序索引的微博去重方法和系统在审
申请号: | 201310681714.9 | 申请日: | 2013-12-12 |
公开(公告)号: | CN103646080A | 公开(公告)日: | 2014-03-19 |
发明(设计)人: | 王鑫文 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 陈依虹;刘光明 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 倒序 索引 微博去重 方法 系统 | ||
技术领域
本发明涉及基于微博的信息分析领域,并且具体地涉及基于倒序索引的微博去重方法和系统。
背景技术
随着互联网的发展,微博正在成为信息传播、普通消费者反馈问题以及投诉的主要渠道。对于企业来说,及时主动处理微博所反映问题并且阻止负面信息的大量扩散是企业客服部门以及公关部门的主要任务,并且将直接影响企业的品牌形象以及商业价值。信息分析系统在微博抓取到的大量微博的时效性和有效性将直接影响客服部门以及公关部门的处理效率以及及时性。
为了避免重复内容的出现,需要进行重复判断(简称“判重”),以减少存储、增强计算效率和改善用户的体验。对微博文本内容的判重,现有的技术方案主要采取字符串比较编辑距离、余弦定理相似度计算、simhash去重等方法。
关于字符串比较编辑距离方法,该方法基于在两个字符串之间由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。例如字符串A内容为x1x2x3x4x5…,字符串B内容为y1y2y3y4y5…,如果将B变为A需要编辑个数M,则相似度为1-M/N,其中N为字符串长度,相似度越接近1,说明越相似。
关于余弦定理相似度计算方法,首先建立词库,根据词库所记录的词语对微博数据进行分词,分词以后对分词统计单词出现次数进行统计,例如文本Z1c1,Z1c2,Z1c3,Z1c4……Z1cn;它们在文本中的个数为:Z1n1,Z1n2,Z1n3……Z1nm,另一文本Z2c1,Z2c2,Z2c3,Z2c4……Z2cn;它们在章节中的个数为:Z2n1,Z2n2,Z2n3……Z2nm,这样将两个文本转换成为两个向量,两向量之间的可以通过余弦定理计算其相似度,计算公式如下:
计算结果越接近1表明相似度越高。
关于simhash去重方法,将微博中文分词后,转换为向量值是词频的N维向量,simhash运算的输入是该向量,输出是一个f位的签名值,通过计算两个签名值的海明距离,通过判断海明距离是否在设定参数范围之内,如果在设定范围之内,则判定这两个文本相似,特征权重为词频,再将该向量转换为一个签名值。Simhash过程如图1所示,整个去重流程图如图2所示,其中simhash过程为:
1.将一个f维的向量V初始化为0;f位的二进制数S初始化为0;
2.对每一个特征:用传统的hash算法对该特征产生一个f位的签名b。对i=1到f:
如果b的第i位为1,则V的第i个元素加上该特征的权重;
否则,V的第i个元素减去该特征的权重。
3.如果V的第i个元素大于0,则S的第i位为1,否则为0;
4.输出S作为签名。
现有技术方案的缺点
在大量微博数据的情况下,任何一种去重方法效率都比较低,尤其是在微博抓取进信息分析系统时,还需要判断在系统中是否已存在与该微博相似的微博(转发微博),这时的运算量过大,会直接影响微博的时效性。
对于上述的去重方法,都是基于文本两两比较来进行判定是否重复,对于现在互联网信息来说,每天的微博数据非常大的情况下,在信息分析系统抓取到微博后,进行判定是否重复的运算就非常巨大,以先有微博数据N条为例,系统抓取到微博后,进行判定是否重复,最坏需要比较N次,才能判断是否重复。这样的运算效率太低。
基于现有技术存在的缺点,我们提出了一种基于倒序索引的simhash去重方法,该方法是基于simhash的一种改进算法,能满足大数据运算下运算效率的保证。本发明弥补了去重方法针对大数据运算的效率低下,迎合了针对微博数据的有效提炼,提高了企业在应对微博信息扩散及时性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310681714.9/2.html,转载请声明来源钻瓜专利网。