[发明专利]一种资讯去重的方法、系统、存储介质及电子设备有效
申请号: | 202010202214.2 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111552864B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 陈扬;陆惠国;顾文斌;樊梦军;徐东剑 | 申请(专利权)人: | 上海恒生聚源数据服务有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538 |
代理公司: | 杭州华鼎知识产权代理事务所(普通合伙) 33217 | 代理人: | 项军 |
地址: | 200127 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 资讯 方法 系统 存储 介质 电子设备 | ||
1.一种资讯去重的方法,其特征在于,包括:
对目标资讯的标题与去重库中资讯的标题进行重复判断;
若资讯的标题重复,则对标题重复的资讯进行去重处理;若资讯的标题不重复,则对目标资讯的内容与去重库中资讯的内容进行重复判断:
获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;
基于各子码建立去重库中对应资讯的索引;
对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断,若资讯的内容重复,则对内容重复的资讯进行去重处理;
对目标资讯的标题是否重复,采用两层判断中的至少一层,其中一层为最短编辑距离的判断,另一层为向量相似度的判断;
所述对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断包括:
基于获取的目标资讯内容的simhash码及去重库中各资讯内容的simhash码,计算目标资讯内容的simhash码与去重库中相同子码对应的资讯的内容的simhash码的汉明距离,若汉明距离大于设定的汉明距离阈值,则判断资讯内容不重复;
若汉明距离小于或等于设定的汉明距离阈值,则对目标资讯的内容与去重库中相同子码对应的资讯的内容进行余弦相似度检测,若余弦相似度小于设定的余弦相似度阈值,则判断资讯的内容不重复,若余弦相似度大于或等于设定的余弦相似度阈值,则判断资讯的内容重复。
2.根据权利要求1所述的一种资讯去重的方法,其特征在于,所述对目标资讯的标题与去重库中资讯的标题进行重复判断包括:
对目标资讯的标题与去重库中资讯的标题进行最短编辑距离计算:若最短编辑距离大于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;
若最短编辑距离小于等于设定阈值,则对目标资讯的标题与去重库中符合最短编辑距离要求的资讯的标题进行向量相似度计算:若向量相似度小于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;若向量相似度大于等于设定阈值,则判断目标资讯的标题与去重库中资讯的标题重复。
3.根据权利要求1或2所述的一种资讯去重的方法,其特征在于,所述对标题重复的资讯进行去重处理之前还包括:
判断标题重复的资讯主体是否相同:若资讯的主体相同,则对标题重复且主体相同的资讯进行去重处理。
4.根据权利要求3所述的一种资讯去重的方法,其特征在于,所述对内容重复的资讯进行去重处理之前还包括:
判断内容重复的资讯主体是否相同:若资讯的主体相同,则对内容重复且主体相同的资讯进行去重处理。
5.根据权利要求4所述的一种资讯去重的方法,其特征在于,所述目标资讯的主体与去重库中资讯的主体的提取包括:
对目标资讯或去重库中资讯通过BERT算法处理得到若干词向量;
对若干词向量通过Bi-LSTM算法处理得到对应的预测分值;
对预测分值通过CRF算法处理得到资讯的主体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海恒生聚源数据服务有限公司,未经上海恒生聚源数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010202214.2/1.html,转载请声明来源钻瓜专利网。