[发明专利]一种相似新闻判别方法、系统及电子设备有效
申请号: | 201910695794.0 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110399464B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 曾颖清 | 申请(专利权)人: | 广州吉信网络科技开发有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/951;G06F40/289;G06F18/22 |
代理公司: | 广东翰锐律师事务所 44442 | 代理人: | 陈业胜;苏少华 |
地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相似 新闻 判别 方法 系统 电子设备 | ||
本发明涉及相似新闻判别方法、系统及电子设备,其兼顾判别的精确度和实时性。其步骤包括抓取步骤:对存量的新闻数据进行分词,对分词后的词语及其词频进行统计后建立词频库;计算步骤:对每篇新闻数据分别分词并提取关键词,根据所述词频库分别计算所述关键词的权重;根据计算步骤所述关键词及所述关键词的权重,计算每篇新闻数据的simhash值,并存入数据库中;对所述simhash值建立数据结构,和/或根据每篇新闻数据的simhash值进行相似处理,将相似的新闻数据合并入所述数据结构中,构建或更新得到相似的新闻id列表。
技术领域
本发明属于信息技术领域,具体涉及一种相似新闻判别方法、系统及电子设备。
背景技术
在舆情监控系统中,客户可以通过设置关键词监控网上符合条件新闻舆情。但由于一条新闻通常会被二次转载乃至多次转载,按关键词筛选到的符合条件新闻舆情里面可能有十几条或者几十条都是重复的。为了提高节约用户时间,提高用户体验,现有技术亟需一种把相似新闻合并成一条,并给出相似的条目数的方法或装置,让用户快速获取自己关注得传播得最广的舆情信息。
然而,现有技术已有的判别方案主要包括两种。一种是TF-IDF法,其中,TF所指的是词频,IDF所指的是逆文本频率指数。TF-IDF是一种用于评估一字词对一个文件集或者一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。其主要思想是,如果某个词语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词语具有很好的类别区分能力,IDF的主要思想是,如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。进行相似的具体方法是,通过TF-IDF算法提取文章关键词,并通过对比两篇文章的关键词的重合率。若重合率超过一定的阈值,则把这两篇文章判断为相似。此方案虽然准确度尚可,但是需要的计算时间较长,实时性较差。
另一种是使用Simhash算法。SimHash算法可计算文本间的相似度,实现文本去重。文本相似度的计算,可以使用向量空间模型(VSM),即先对文本分词,提取特征,根据特征建立文本向量,把文本之间相似度的计算转化为特征向量距离的计算,如欧式距离、余弦夹角等。但这样做的缺点是复杂度会很高。例如,在去掉标点符号,连接词后,对每个字计算Simhash值,若两篇文章的Simhash值小于一定的阈值,则把这两篇文章判断为相似。然而,Simhash相似方案通过压缩了文章的信息降低计算耗时,也因此相似的准确率不高。
因此,有必要提供一种新的相似的方案,进一步提高判别的实时性、准确性等,进一步优化去重效果。
发明内容
本发明的目的是,克服上述技术缺陷,提供一种相似新闻判别方法、系统及电子设备,用以兼顾判别的实时性和准确性。
为了达到上述技术目的,本发明的技术方案如下:
一种相似新闻判别方法,包括如下步骤:
抓取步骤:对存量的新闻数据进行分词,对分词后的词语及其词频进行统计后建立词频库,所述词频是指词语在存量的新闻数据中出现的篇目数;
计算步骤:对每篇新闻数据分别分词并提取关键词,根据所述词频库分别计算所述关键词的权重;根据计算步骤所述关键词及所述关键词的权重,计算每篇新闻数据的simhash 值,并存入数据库中;对所述simhash值建立数据结构,和/或根据每篇新闻数据的simhash 值进行相似处理,将相似的新闻数据合并入所述数据结构中,构建或更新得到相似的新闻 id列表。
本发明提供的相似新闻的判别方法中对所有的新闻数据计算权重及simhash值,通过量化的方式对所有的新闻数据进行相似对比,替代了在以往的相似判别中必须选择两两对比的方式,使得其降低了比对的工作和时间,满足互联网产生大量新闻条目的实时环境,更具实时性。同时,本发明的判别方法又克服了simhash相似去重方案中压缩了数据的信息的劣势,使得判别结果更具准确度。因此,本发明提供的判别方法兼具判别的实时性和准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州吉信网络科技开发有限公司,未经广州吉信网络科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910695794.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:工作票的相似度匹配方法及装置
- 下一篇:用于处理信息的方法和装置