[发明专利]UGC指纹签名确定方法、装置及UGC去重方法、装置在审

专利信息
申请号: 201610111706.4 申请日: 2016-02-29
公开(公告)号: CN105681046A 公开(公告)日: 2016-06-15
发明(设计)人: 王路;李国强;周坤朋;乔景亮;张丽辉;朱雨莹;张扬蕾;骆超锋;陈拓 申请(专利权)人: 郑州悉知信息科技股份有限公司
主分类号: H04L9/32 分类号: H04L9/32;H04L29/06;G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王宝筠
地址: 450000 河南省郑*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: ugc 指纹 签名 确定 方法 装置
【说明书】:

技术领域

本申请涉及网页处理技术领域,更具体地说,涉及一种UGC(User GeneratedContent,用户原创内容)指纹签名确定方法、装置及UGC去重方法、 装置。

背景技术

随着计算机科学技术与网络技术的飞速发展,网络已经成为人们获取重 要信息的重要途径。许多平台都提供了网上购物功能,产品供应商可以制作 产品对应的UGC,将该UGC提交给平台,由平台将UGC制作成网页,并放在 购物平台上进行推广。

产品供应商为了更好的宣传自己的产品,有可能会提交重复或稍作改动 的UGC到购物平台,而这些重复的UGC占用了平台大量的有效资源,同时也 给用户带来额外困扰。如何确定UGC身份,进而能够利用UGC身份实现UGC 去重成为亟待解决的问题。

发明内容

有鉴于此,本申请提供了一种UGC指纹签名确定方法、装置及UGC去重 方法、装置,以确定UGC的身份,并基于此实现UGC去重。

为了实现上述目的,现提出的方案如下:

一种UGC指纹签名确定方法,包括:

获取用户原创内容UGC;

过滤所述UGC中的排版信息,得到文字信息;

对所述文字信息进行分词以及词频统计,得到若干词以及各词的词频数;

计算各个词的hash值;

利用各词的词频数对相应词的hash值进行加权,得到加权后hash值;

将各词的加权后hash值进行累加,得到序列串信息;

将所述序列串信息转换为二进制格式,得到所述UGC的指纹签名。

优选地,所述过滤所述UGC中的排版信息,包括:

过滤所述UGC中的html标签类符号、标点符号和特殊字符。

优选地,所述计算各个词的hash值,包括:

利用md5算法对各词进行计算,得到16进制的32位数字信息;

将所述16进制的32位数字信息转换为2进制的128位数字信息,作为 词的hash值。

优选地,所述利用各词的词频数对相应词的hash值进行加权,包括:

确定词的hash值中各序位数字为0还是1;

对于序位数字为1的序位,将该序位数字替换为词频数,词频数与词对 应;

对于序位数字为0的序位,将该序位数字替换为负的词频数,词频数与 词对应。

优选地,所述将各词的加权后hash值进行累加,包括:

将各词的加权后hash值中,相同序位的数字进行相加,得到128位的序 列串信息。

优选地,所述将所述序列串信息转换为二进制格式,包括:

判断128位的序列串信息中各序位的数字是否大于0;

对于大于0的序位,将该序位数字替换为1;

对于不大于0的序位,将该序位数字替换为0。

一种UGC去重方法,包括:

获取待处理的用户原创内容UGC,按照上述所述的UGC指纹签名确定 方法确定所述UGC的指纹签名;

调取预置的UGC指纹签名库,所述UGC指纹签名库中存储有若干UGC 的指纹签名,且存储的各指纹签名均是按照上述所述的UGC指纹签名确定方 法所得到的;

对比所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的相似 度;

若UGC指纹签名库中存在相似度满足相似度设定条件的指纹签名,则拒 绝处理所述UGC。

优选地,所述对比所述UGC的指纹签名与所述UGC指纹签名库中各指 纹签名的相似度,包括:

采用汉明距离计算方法,计算所述UGC的指纹签名与所述UGC指纹签 名库中各指纹签名的距离;

若UGC指纹签名库中某个指纹签名与所述UGC的指纹签名的距离超过 设定距离阈值,则确定二者相似度满足相似度设定条件。

一种UGC指纹签名确定装置,包括:

UGC获取单元,用于获取UGC;

排版信息过滤单元,用于过滤所述UGC中的排版信息,得到文字信息;

分词及词频统计单元,用于对所述文字信息进行分词以及词频统计,得 到若干词以及各词的词频数;

hash计算单元,用于计算各个词的hash值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州悉知信息科技股份有限公司,未经郑州悉知信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610111706.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top