[发明专利]一种相似新闻判别方法、系统及电子设备有效
申请号: | 201910695794.0 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110399464B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 曾颖清 | 申请(专利权)人: | 广州吉信网络科技开发有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/951;G06F40/289;G06F18/22 |
代理公司: | 广东翰锐律师事务所 44442 | 代理人: | 陈业胜;苏少华 |
地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及相似新闻判别方法、系统及电子设备,其兼顾判别的精确度和实时性。其步骤包括抓取步骤:对存量的新闻数据进行分词,对分词后的词语及其词频进行统计后建立词频库;计算步骤:对每篇新闻数据分别分词并提取关键词,根据所述词频库分别计算所述关键词的权重;根据计算步骤所述关键词及所述关键词的权重,计算每篇新闻数据的simhash值,并存入数据库中;对所述simhash值建立数据结构,和/或根据每篇新闻数据的simhash值进行相似处理,将相似的新闻数据合并入所述数据结构中,构建或更新得到相似的新闻id列表。 | ||
搜索关键词: | 一种 相似 新闻 判别 方法 系统 电子设备 | ||
【主权项】:
1.一种相似新闻判别方法,其特征在于,包括如下步骤:抓取步骤:对存量的新闻数据进行分词,对分词后的词语及其词频进行统计后建立词频库,所述词频是指词语在存量的新闻数据中出现的篇目数;计算步骤:对每篇新闻数据分别分词并提取关键词,根据所述词频库分别计算所述关键词的权重;根据所述关键词及所述关键词的权重,计算每篇新闻数据的simhash值,并存入数据库中;对所述simhash值建立数据结构,和/或根据每篇新闻数据的simhash值进行相似处理,将相似的新闻数据合并入所述数据结构中,构建或更新得到相似的新闻id列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州吉信网络科技开发有限公司,未经广州吉信网络科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910695794.0/,转载请声明来源钻瓜专利网。
- 上一篇:工作票的相似度匹配方法及装置
- 下一篇:用于处理信息的方法和装置