[发明专利]利用卷积双向自注意网络解决开放长格式视频问答的方法有效
| 申请号: | 201910167951.0 | 申请日: | 2019-03-06 |
| 公开(公告)号: | CN109902164B | 公开(公告)日: | 2020-12-18 |
| 发明(设计)人: | 赵洲 | 申请(专利权)人: | 杭州一知智能科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/73;G06F40/30;G06F17/16 |
| 代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 王闯 |
| 地址: | 311200 浙江省杭州市萧山*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 卷积 双向 注意 网络 解决 开放 格式 视频 问答 方法 | ||
本发明公开了一种利用卷积双向自注意网络解决开放长格式视频问答的方法,主要包括如下步骤:1)设计一种卷积双向自注意网络模型来获取开放长格式视频问答的相关答案;2)训练得到最终的卷积双向自注意网络模型,利用该模型生成长格式视频问答任务的答案。相比于一般的视频问答任务解决方案,本发明利用了卷积自注意力机制,能够更好地完成开放长格式视频问答任务。本发明在开放长格式视频问答任务中所取得的效果相比于传统的方法更好。
技术领域
本发明涉及开放长格式视频问答任务,尤其涉及一种利用卷积双向自注意网络解决开放长格式视频问答的方法。
背景技术
开放长格式视频问答任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要系统针对于某个特定视频,回答用户提出的问题,并且用户的提问对象一般是较长的视频,用户提出的问题也是较长的自然语言文本。目前开放长格式视频问答任务的研究仍处于探索阶段。对于开放长格式视频问答任务的研究可以应用于众多领域之中。
目前已有的视频问答任务解决方法一般是关注解决短格式视频问答任务,对于开放长格式视频问答任务关注较少。传统的短格式视频问答任务解决方法,主要是利用多模态循环编解码器网络。这种方法由于缺乏对长格式视频内容中长格式语义依赖关系的建模,对开放长格式视频问答任务的解决效果不好。
为了解决上述问题,本发明利用卷积双向自注意网络来解决开放长格式视频问答任务,提高开放长格式视频问答任务形成答案文本的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术由于缺乏对长格式视频内容中长格式语义依赖关系的建模,对开放长格式视频问答任务的解决效果不好的问题,本发明提供一种利用卷积双向自注意网络解决开放长格式视频问答的方法。本发明所采用的具体技术方案是:
利用卷积双向自注意网络解决开放长格式视频问答的方法,包含如下步骤:
1.设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达。
2.设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达。
3.设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2获取的最终多流视频语义表达,得到开放长格式视频问答的结果。
上述步骤可具体采用如下实现方式:
对于输入堆叠卷积序列模型的序列,需要与位置时间信号相加,获得带有位置信息的输入序列,位置时间信号计算方法如下列公式所示,
其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第 t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度。
对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet 网络获取视频中的帧表达特征v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数。将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达 v={v1',v2',...,vn'}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司,未经杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910167951.0/2.html,转载请声明来源钻瓜专利网。





