[发明专利]信息处理方法、装置、计算机设备及存储介质有效
申请号: | 201911120840.0 | 申请日: | 2019-11-15 |
公开(公告)号: | CN112749326B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 刘刚 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/335 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 装置 计算机 设备 存储 介质 | ||
本申请提供信息处理方法、装置、计算机设备及存储介质,涉及数据处理技术领域,方法包括:获取待处理信息,确定待处理信息中的各类信息元素;将每类信息元素分别进行向量化,得到各类信息元素的特征向量;分别针对每类信息元素,获得该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度;根据各类信息元素对应的相似度,获得待处理信息与目标信息之间的相似度;根据待处理信息与目标信息之间的相似度确定待处理信息的处理结果。解构待处理信息中的各类信息元素,根据各类信息元素的向量以及各类信息元素对应的目标特征向量之间的相似度综合确定待处理信息的相似度,提高了待处理信息的查重准确率及召回准确率。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种信息处理方法、装置、计算机设备及存储介质。
背景技术
随着移动互联网的飞速发展以及内容生产的门槛降低,内容生产产量持续攀升的背景下,各种内容生产和分发平台获得了极大的快速发展,内容生态体系持续繁荣。但是内容的大繁荣也带来了信息的过载问题。对用户来说,其需要的是有价值的信息而非千篇一律的内容,而用户会收到许多重复相近的内容,所以需要对推送给用户的内容进行判重,识别推送内容是否重复或者相近。
现有技术中使用的内容排重方法通常使用simhash方法或者其变种,比如选择图文内容当中句子最长的三句话作为图文内容的代表来计算simhash进行排重。但是对于长文本,simhash方法的识别准确率还可以,但是对于相似内容的召回不足,另外对于图文内容当中,文字很多,图片很多的内容,识别效果也很差。
综上所述,现有技术中针对推送内容的查重准确率以及召回率低。
发明内容
本申请实施例提供一种信息处理方法、装置、计算机设备及存储介质,针对推送内容的查重准确率以及召回率高。
一方面,本申请实施例提供一种信息处理方法,所述方法包括:
获取待处理信息,确定所述待处理信息中的各类信息元素;
将每类信息元素分别进行向量化,得到各类信息元素的特征向量;
分别针对每类信息元素,获得该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度,其中,该类信息元素对应的目标特征向量是根据该类目标信息元素获得的;
根据各类信息元素对应的相似度,获得所述待处理信息与目标信息之间的相似度,所述目标信息中包括各类目标信息元素;
根据所述待处理信息与目标信息之间的相似度确定所述待处理信息的处理结果。
一方面,本申请实施例提供一种信息处理装置,包括:
获取单元,用于获取待处理信息,确定所述待处理信息中的各类信息元素;
向量化单元,用于将每类信息元素分别进行向量化,得到各类信息元素的特征向量;
相似度确定单元,用于分别针对每类信息元素,获得该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度,其中,该类信息元素对应的目标特征向量是根据该类目标信息元素获得的;根据各类信息元素对应的相似度,获得所述待处理信息与目标信息之间的相似度,所述目标信息中包括各类目标信息元素;
处理结果确定单元,用于根据所述待处理信息与目标信息之间的相似度确定所述待处理信息的处理结果。
可选的,所述待处理信息中至少包括文本信息元素,
所述向量化单元还用于:
确定所述文本信息元素存在多种翻译格式;
将存在多种翻译格式的文本信息元素翻译为同一翻译格式的文本信息元素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911120840.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:设备布建系统及其方法
- 下一篇:波动图像动态存储平台