[发明专利]用于生成视频摘要的方法和系统有效
申请号: | 201810874321.2 | 申请日: | 2018-08-03 |
公开(公告)号: | CN110798752B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 曾建平;吴立薪;吕晶晶;包勇军 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | H04N21/8549 | 分类号: | H04N21/8549;G06N3/04 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李浩;方亮 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 视频 摘要 方法 系统 | ||
1.一种用于生成视频摘要的方法,包括:
根据视频场景的变化将视频切分为多个镜头,其中每个镜头为一段内容连续的视频场景;
计算每个镜头的重要性分值;
计算每个镜头与所宣传商品图片的相似度,并利用所述相似度修正镜头的重要性分值;
在所述多个镜头中识别出展现关键特征的镜头;以及
从所述展现关键特征的镜头中选取主镜头,并从所述多个镜头中的剩余镜头中选取辅助镜头,将所述主镜头和所述辅助镜头作为所选取的一组镜头,并将该组镜头拼接成视频摘要,其中,在满足视频摘要总时长的约束条件的情况下,所选取的该组镜头的总的重要性分值最大。
2.根据权利要求1所述的方法,其中,计算每个镜头的重要性分值的步骤包括:
利用三维卷积网络对每个镜头提取特征向量,获得镜头集合的特征向量序列;以及
将所述特征向量序列输入到预先训练的镜头重要性分值计算网络以计算每个镜头的重要性分值。
3.根据权利要求2所述的方法,其中,在将视频切分为多个镜头之前,所述方法还包括:
采用强化学习的方法对镜头重要性分值计算网络进行训练,其中,所述强化学习的方法所包含的关键元素包括:行动和价值奖励函数,所述价值奖励函数包含:多样性指标和代表性指标。
4.根据权利要求1所述的方法,其中,所述关键特征包括商品品牌商标和商品品牌文字中的至少一个。
5.根据权利要求4所述的方法,其中,在所述多个镜头中识别出展现关键特征的镜头的步骤包括:
使用基于深度学习的对象检测方法检测视频的每帧图像中的商标区域;以及将商标区域的图像输入到预先训练的深度模型提取嵌入特征向量,并将所述嵌入特征向量与数据库中的商标图像的特征向量进行比对,获取商标的品牌类型,从而识别出展现商品品牌商标的镜头;或者,
使用基于深度学习的光学字符识别方法识别视频的每帧图像中的文字;以及对文字进行分词处理,并将处理后的文字与数据库中的品牌文字进行匹配,保留与商品品牌相关的文字,从而识别出展现商品品牌文字的镜头。
6.根据权利要求1所述的方法,其中,
从所述展现关键特征的镜头中选取主镜头的步骤包括:如果从所述展现关键特征的镜头中选取的镜头为视频的最前面Ng个镜头或最后面Ng个镜头,则确定该最前面Ng个镜头或该最后面Ng个镜头为主镜头,Ng为正整数;
从所述多个镜头中的剩余镜头中选取辅助镜头,将所述主镜头和所述辅助镜头作为所选取的一组镜头的步骤包括:从所述多个镜头中的剩余镜头中选取辅助镜头,将所述主镜头和所述辅助镜头作为所选取的一组镜头,使得所选取的该组镜头在满足视频摘要总时长的约束条件的情况下总的重要性分值最大;
将该组镜头拼接成视频摘要的步骤包括:将所述主镜头和所述辅助镜头按照时间顺序拼接成视频摘要。
7.根据权利要求1所述的方法,其中,计算每个镜头与所宣传商品图片的相似度,并利用所述相似度修正镜头的重要性分值的步骤包括:
计算所宣传商品图片的特征向量;
对每个镜头的多帧图像进行采样以获得采样帧,并计算每个镜头的采样帧的特征向量;
根据所述商品图片的特征向量和每个镜头的采样帧的特征向量计算每个镜头与所述商品图片的相似度;以及
根据所述相似度和预设的相似度阈值对每个镜头的重要性分值进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810874321.2/1.html,转载请声明来源钻瓜专利网。