[发明专利]视频去重方法及装置有效
| 申请号: | 201310744685.6 | 申请日: | 2013-12-30 |
| 公开(公告)号: | CN103678702B | 公开(公告)日: | 2018-01-30 |
| 发明(设计)人: | 李珊;刘锟 | 申请(专利权)人: | 优视科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京博浩百睿知识产权代理有限责任公司11134 | 代理人: | 宋子良,张奇巧 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 方法 装置 | ||
1.一种视频去重方法,其特征在于,包括:
根据视频的文本数据将第一视频集合分为多个视频子集合,其中,所述文本数据为视频具有的至少用于描述视频的标题、描述和演员的结构化的数据;
利用空间向量模型计算所述视频子集合内两个所述视频的相似度;
根据所述相似度对所述视频子集合中的所述视频进行去重处理得到第二视频集合;
其中,根据视频的文本数据将第一视频集合分为多个视频子集合的步骤包括:
提取所述文本数据中的属性数据;
计算所述属性数据的哈希值;
将具有相同所述哈希值的所述视频映射到一个所述视频子集合中;
其中,所述多个视频子集合中属于同一个视频子集合的视频具有相同的哈希值,所述多个视频子集合中的视频信息保存在视频索引表中,其中,所述视频信息包括哈希值和文本数据;
其中,将具有相同所述哈希值的所述视频映射到一个所述视频子集合中的步骤包括:
检测所述视频索引表中是否存在所述哈希值;
在所述视频索引表中存在所述哈希值的情况下,将所述哈希值对应的所述文本数据写入所述视频索引表中对应所述视频子集合的第一位置;
在所述视频索引表中不存在所述哈希值的情况下,将所述哈希值及其对应的所述文本数据写入所述视频索引表中对应新的所述视频子集合的第二位置。
2.根据权利要求1所述的视频去重方法,其特征在于,计算所述属性数据的哈希值的步骤包括:
将所述属性数据合成字符串;
对所述字符串中的每个字符进行字符编码得到整型的值;
根据所述整型的值和预设维数计算标号;
将初始数组对应所述标号的位置设置为1获取哈希数组,其中,所述预设维数为所述初始数组的维数;
将所述哈希数组分为预设个数的所述哈希值。
3.根据权利要求2所述的视频去重方法,其特征在于,根据所述整型的值和预设维数计算标号的步骤包括:
按照如下公式计算所述标号site,其中,所述公式为:site=(wd*331)%f,其中,所述wd为所述整型的值,所述f为所述预设维数。
4.根据权利要求1所述的视频去重方法,其特征在于,利用空间向量模型计算所述视频子集合内任意两个所述视频的相似度的步骤包括:
建立所述视频子集合中第一视频的第一空间向量和第二视频的第二空间向量;
计算所述第一空间向量与所述第二空间向量之间的向量余弦值,将所述向量余弦值作为所述相似度。
5.根据权利要求4所述的视频去重方法,其特征在于,建立所述视频子集合中第一视频的第一空间向量和第二视频的第二空间向量的步骤包括:
从所述第一视频和所述第二视频中抓取关键词;
检测所述第一视频的第一文本数据中是否存在所述关键词;
在所述第一文本数据中存在所述关键词的情况下,设置所述关键词的第一权值为1;
在所述第一文本数据中不存在所述关键词的情况下,设置所述关键词的所述第一权值为0;
检测所述第二视频的第二文本数据中是否存在所述关键词;
在所述第二文本数据中存在所述关键词的情况下,设置所述关键词的第二权值为1;
在所述第二文本数据中不存在所述关键词的情况下,设置所述关键词的所述第二权值为0;
将所述关键词和所述第一权值保存在所述第一空间向量中,以及将所述关键词和所述第二权值保存在所述第二空间向量中。
6.根据权利要求4所述的视频去重方法,其特征在于,根据所述相似度对所述视频子集合中的所述视频进行去重处理得到第二视频集合的步骤包括:
检测所述向量余弦值是否大于预设阈值;
在所述向量余弦值大于所述预设阈值的情况下,确定所述视频已经存在,将所述视频丢弃;
在所述向量余弦值不大于所述预设阈值的情况下,将所述视频的所述文本数据和对应的所述哈希值插入所述视频索引表;
使用所述视频索引表更新所述第一视频集合得到所述第二视频集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于优视科技有限公司,未经优视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310744685.6/1.html,转载请声明来源钻瓜专利网。





