[发明专利]UGC指纹签名确定方法、装置及UGC去重方法、装置在审
申请号: | 201610111706.4 | 申请日: | 2016-02-29 |
公开(公告)号: | CN105681046A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 王路;李国强;周坤朋;乔景亮;张丽辉;朱雨莹;张扬蕾;骆超锋;陈拓 | 申请(专利权)人: | 郑州悉知信息科技股份有限公司 |
主分类号: | H04L9/32 | 分类号: | H04L9/32;H04L29/06;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | ugc 指纹 签名 确定 方法 装置 | ||
技术领域
本申请涉及网页处理技术领域,更具体地说,涉及一种UGC(User GeneratedContent,用户原创内容)指纹签名确定方法、装置及UGC去重方法、 装置。
背景技术
随着计算机科学技术与网络技术的飞速发展,网络已经成为人们获取重 要信息的重要途径。许多平台都提供了网上购物功能,产品供应商可以制作 产品对应的UGC,将该UGC提交给平台,由平台将UGC制作成网页,并放在 购物平台上进行推广。
产品供应商为了更好的宣传自己的产品,有可能会提交重复或稍作改动 的UGC到购物平台,而这些重复的UGC占用了平台大量的有效资源,同时也 给用户带来额外困扰。如何确定UGC身份,进而能够利用UGC身份实现UGC 去重成为亟待解决的问题。
发明内容
有鉴于此,本申请提供了一种UGC指纹签名确定方法、装置及UGC去重 方法、装置,以确定UGC的身份,并基于此实现UGC去重。
为了实现上述目的,现提出的方案如下:
一种UGC指纹签名确定方法,包括:
获取用户原创内容UGC;
过滤所述UGC中的排版信息,得到文字信息;
对所述文字信息进行分词以及词频统计,得到若干词以及各词的词频数;
计算各个词的hash值;
利用各词的词频数对相应词的hash值进行加权,得到加权后hash值;
将各词的加权后hash值进行累加,得到序列串信息;
将所述序列串信息转换为二进制格式,得到所述UGC的指纹签名。
优选地,所述过滤所述UGC中的排版信息,包括:
过滤所述UGC中的html标签类符号、标点符号和特殊字符。
优选地,所述计算各个词的hash值,包括:
利用md5算法对各词进行计算,得到16进制的32位数字信息;
将所述16进制的32位数字信息转换为2进制的128位数字信息,作为 词的hash值。
优选地,所述利用各词的词频数对相应词的hash值进行加权,包括:
确定词的hash值中各序位数字为0还是1;
对于序位数字为1的序位,将该序位数字替换为词频数,词频数与词对 应;
对于序位数字为0的序位,将该序位数字替换为负的词频数,词频数与 词对应。
优选地,所述将各词的加权后hash值进行累加,包括:
将各词的加权后hash值中,相同序位的数字进行相加,得到128位的序 列串信息。
优选地,所述将所述序列串信息转换为二进制格式,包括:
判断128位的序列串信息中各序位的数字是否大于0;
对于大于0的序位,将该序位数字替换为1;
对于不大于0的序位,将该序位数字替换为0。
一种UGC去重方法,包括:
获取待处理的用户原创内容UGC,按照上述所述的UGC指纹签名确定 方法确定所述UGC的指纹签名;
调取预置的UGC指纹签名库,所述UGC指纹签名库中存储有若干UGC 的指纹签名,且存储的各指纹签名均是按照上述所述的UGC指纹签名确定方 法所得到的;
对比所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的相似 度;
若UGC指纹签名库中存在相似度满足相似度设定条件的指纹签名,则拒 绝处理所述UGC。
优选地,所述对比所述UGC的指纹签名与所述UGC指纹签名库中各指 纹签名的相似度,包括:
采用汉明距离计算方法,计算所述UGC的指纹签名与所述UGC指纹签 名库中各指纹签名的距离;
若UGC指纹签名库中某个指纹签名与所述UGC的指纹签名的距离超过 设定距离阈值,则确定二者相似度满足相似度设定条件。
一种UGC指纹签名确定装置,包括:
UGC获取单元,用于获取UGC;
排版信息过滤单元,用于过滤所述UGC中的排版信息,得到文字信息;
分词及词频统计单元,用于对所述文字信息进行分词以及词频统计,得 到若干词以及各词的词频数;
hash计算单元,用于计算各个词的hash值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州悉知信息科技股份有限公司,未经郑州悉知信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610111706.4/2.html,转载请声明来源钻瓜专利网。