[发明专利]视频去重方法及装置有效

专利信息
申请号: 201310744685.6 申请日: 2013-12-30
公开(公告)号: CN103678702B 公开(公告)日: 2018-01-30
发明(设计)人: 李珊;刘锟 申请(专利权)人: 优视科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京博浩百睿知识产权代理有限责任公司11134 代理人: 宋子良,张奇巧
地址: 100080 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 视频 方法 装置
【说明书】:

技术领域

发明涉及视频处理领域,具体而言,涉及一种视频去重方法及装置。

背景技术

在视频搜索领域,需要处理海量的、来自不同提供方的视频源,它们中间存在着大量的重复视频,特别是一些热门视频。这样会严重影响搜索和视频推荐结果的质量,导致用户体验的下降。所以如何去除具有相同内容的视频,成为视频搜索中必须要解决的问题。

最常见的视频去重方法就是通过视频文件的md5值去重,该方法认为具有相同md5值的文件是同一部视频。在具有视频文件的项目中,使用这种方法能够识别出大量的重复视频,但是它的弊端就在于对视频文件任何一个小的操作都会造成md5值的不同,例如,转码、删减、广告或字幕的植入,这样采用md5值去重的工作量就很大。

另一种方法就是根据视频内容去重。视频是由很多连续变化的图像帧组成,而图像帧存在时间和空间上的冗余度,连续的关键帧反应了视频的主要内容。因此,通常会使用关键帧来表示整个视频。完成了对视频关键帧的识别之后,需要提取视频特征来分析视频内容。视频特征就是能够反应视频内容信息的视频本身所具有的物理性质,主要包括颜色特征、纹理特征、运动特征以及声音和字幕等等。最终,就能够利用关键帧的视频特征来对视频内容进行分析,从而识别出相同的视频。

通过提取关键帧以及关键帧的视频特征来分析视频内容的计算复杂度高,并且需要在具有视频文件的情况下才能进行。下面是一种根据视频文本数据进行视频去重的方法:互联网中的视频一般具有标题、描述和演员等结构化的文本数据,这些文本可以用来描述一部视频。根据视频的文本数据,通过分词来为每部视频建立空间向量模型,然后通过计算两部视频之间的文本信息的距离来衡量其相似度。但是,此方法需要对视频进行两两计算来比较其相似度,计算复杂度太高,无法扩展到工程上对海量视频进行去重。另一个方面,对于来自不同提供方的视频源,视频的文本数据往往具有量大、文本特征稀疏、数据缺失,不一致和含噪声等问题。例如,自不同源的同一部视频,由于填写描述信息的人可以从不同的角度去讲述视频的故事情节,或者在长度上也存在很多的差异,就可能造成对相同视频的描述可能在文字上并不具有很高的相似度。在这种情况下,直接对视频的文本数据建立空间向量模型来计算相似度,不仅计算复杂度高,而且也无法保证结果的准确性。

Google的Charikar提出的SimHash是一种局部敏感的哈希算法。使用该方法用于在大规模网页中去重相似网页方面有较好的效果。它能够对内容相似的文本产生相同或是相近的哈希值。其原理是从文本中提取一组特征集,依次把每个特征hash到f位中,最终依据海明距离来找寻相似的文档。经过测试可以发现,对长文本使用SimHash效果很好,但对于短文本的效果并不佳。因为短文本自身所包含的信息量较小,造成可供利用的特征信息匮乏,每个特征的份量就增大。例如,以字为特征进行SimHash,由于在算法中每个字都会使得哈希值的多个位不同,还产生较大的海明距离。因此,对于长度对比较短的视频文本数据使用Simhash,并不能保证相同视频能够产生相同或是相近哈希值的覆盖度。

针对现有技术中对视频去重准确率低、计算复杂度高的问题,目前尚未提出有效的解决方案。

发明内容

针对相关技术中对视频去重准确率低、计算复杂度高的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种视频去重方法及装置,以解决上述问题。

为了实现上述目的,根据本发明的一个方面,提供了一种视频去重方法,该方法包括:根据视频的文本数据将第一视频集合分为多个视频子集合;利用空间向量模型计算视频子集合内两个视频的相似度;根据相似度对视频子集合中的视频进行去重处理得到第二视频集合。

进一步地,根据视频的文本数据将第一视频集合分为多个视频子集合的步骤包括:提取文本数据中的属性数据;计算属性数据的哈希值;将具有相同哈希值的视频映射到一个视频子集合中。

进一步地,计算属性数据的哈希值的步骤包括:将属性数据合成字符串;对字符串中的每个字符进行字符编码得到整型的值;根据整型的值和预设维数计算标号;将初始数组对应标号的位置设置为1获取哈希数组,其中,预设维数为初始数组的维数;将哈希数组分为预设个数的哈希值。

进一步地,根据整型的值和预设维数计算标号的步骤包括:按照如下公式计算标号site,其中,公式为:site=(wd*331)%f,其中,wd为整型的值,f为预设维数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于优视科技有限公司,未经优视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310744685.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top