[发明专利]融合局部目标特征与全局特征的视频摘要生成方法有效
| 申请号: | 202110444672.1 | 申请日: | 2021-04-24 |
| 公开(公告)号: | CN113139468B | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 杜友田;张光勋 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06V10/82;G06F16/738;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/08 |
| 代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
| 地址: | 710049 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 局部 目标 特征 全局 视频 摘要 生成 方法 | ||
一种融合局部目标特征与全局特征的视频摘要生成方法,提取视频的局部目标特征,所述局部目标特征中包含目标的视觉特征、目标的运动轨迹特征以及目标的类别标签特征;利用注意力机制构建局部目标特征融合网络,输入所述局部目标特征得到融合局部目标特征;利用编码‑解码框架中的编码器从视频中抽取得到视频的全局特征,并将所述融合局部特征引入编码‑解码框架,融合视频的全局特征信息与局部目标特征信息,获得表现力更加丰富的表征向量,再根据该表征向量解码出相应的摘要语句。本发明为编码‑解码框架的视频摘要生成模型引入了视频局部目标特征,丰富表征特征的视觉表现力,进而优化最终的文本生成,实现基于输入视频生成相关的语义文本描述。
技术领域
本发明属于人工智能以及计算机视觉和自然语言处理技术领域,涉及视频理解与视频摘要生成,特别涉及一种融合局部目标特征与全局特征的视频摘要生成方法。
背景技术
随着人工智能技术在计算机视觉领域和自然语言处理领域的不断发展与成熟,上述领域的交叉任务——视频摘要生成任务逐渐成为人工智能领域的研究热点之一。视频摘要生成任务是指,给定一段视频,利用计算机生成一段文字,用于描述视频中的内容(目前以英文为主),进而达到理解视频内容的目的。视频摘要生成任务是视频理解任务的一个重要分支。视频理解技术在生活中有着广泛的应用价值,在互联网领域,视频理解技术具有视频搜索、视频摘要、无意义直播识别、视频重点识别等应用;在安防领域,视频理解技术具有暴恐识别、异常事件识别、人车分析等应用;在机器人领域,视频理解技术具有导航、定位、抓取等应用;在扶残助残方面,视频理解技术具有对盲人进行导航,将电影或短视频描述给盲人等应用。
视频摘要生成一方面需要考虑如何有效的从视频中抽取特征,从而可以利用这些特征充分理解并表示视频的内容,另一方面也需要考虑如何利用抽取后的视觉特征去匹配文本语料库,进而去生成与视频匹配的文本描述。视频摘要生成任务的最终目的是为了打破视觉与语言之间的鸿沟。近年来,以数据驱动的深度学习方法成为解决视频摘要生成问题的主流方法。该方法利用编码-解码架构,编码器用于抽取视频中的特征信息,解码器则用于生成合理的表述。
专利CN112468888A公开了一种基于GRU网络的视频摘要生成方法,通过在Seq2Seq模型中引入GRU网络单元,使模型在处理视频帧序列时能最大程度保留帧与帧之间的长距离影响因素,同时减少模型的参数,有效减少了模型的计算量。专利CN108966042A公开了一种基于最短路径的视频摘要生成方法,通过构建有向图,结合有向图与最短路径算法计算得到最短路径,从而获得路径上的关键帧并根据关键帧生成视频摘要。专利CN109743642A公开了一种基于分层循环神经网络的视频摘要生成方法,通过利用多层LSTM网络,解决了长时序视频摘要生成问题。专利CN110933518A公开了一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,通过利用卷积多层注意力机制更准确地反映查询相关的视频视觉特征,产生更加符合的视频摘要。专利CN107222795A公开了一种多特征融合的视频摘要生成方法,通过为不同视频片段分配不同的重要性系数筛选出一个优化的视频片段子集,再以该子集为基础实现视频摘要的合成。
由此可见,当前视频摘要生成方法主要是通过编码器抽取视频中关键的全局特征生成可以反映视频内容的表征特征,进而使用解码器通过对表征特征进行解码获得描述性的语句。但是,现存的方法忽视了视频中局部目标特征,同时也忽视了目标间的交互关系,因此生成的表征特征缺乏足够的视觉表现力。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种融合局部目标特征与全局特征的视频摘要生成方法,旨在为编码-解码框架的视频摘要生成模型引入视频中的局部目标特征,丰富表征特征的视觉表现力,进而优化最终的文本生成,实现基于输入视频生成相关的语义文本描述。
为了实现上述目的,本发明采用的技术方案是:
一种融合局部目标特征与全局特征的视频摘要生成方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110444672.1/2.html,转载请声明来源钻瓜专利网。





