[发明专利]利用卷积双向自注意网络解决开放长格式视频问答的方法有效
| 申请号: | 201910167951.0 | 申请日: | 2019-03-06 |
| 公开(公告)号: | CN109902164B | 公开(公告)日: | 2020-12-18 |
| 发明(设计)人: | 赵洲 | 申请(专利权)人: | 杭州一知智能科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/73;G06F40/30;G06F17/16 |
| 代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 王闯 |
| 地址: | 311200 浙江省杭州市萧山*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 卷积 双向 注意 网络 解决 开放 格式 视频 问答 方法 | ||
1.利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,包括如下步骤:
1)设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达;
对于输入堆叠卷积序列模型的序列,与位置时间信号相加,获得带有位置信息的输入序列;对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet网络获取视频中的帧表达特征以及带有位置信息的视频帧表达;对于开放长格式视频问答任务的问题文本,输入到文本编码网络中,获取单词级别的问题表达以及带有位置信息的问题文本表达;将获得的带有位置信息的视频帧表达输入到L层的堆叠卷积序列模型中,上一层堆叠卷积序列模型的输出作为下一层堆叠卷积序列模型的输入,获得帧级别的视频语义表达;将获得的带有位置信息的问题文本表达输入到K层堆叠卷积序列模型中,上一层堆叠卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得单词级别的问题语义表达;
2)设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达;
给定计算方式,利用得到的帧级别的视频语义表达与单词级别的问题语义表达计算得到视频问题注意力矩阵,并进一步获取正向自注意力分数矩阵和负向注意力分数矩阵,通过给定计算方式基于视频每一帧的正向自注意力表达、视频每一帧的负向注意力表达与帧级别的视频语义表达获得最终多流视频语义表达;
3)设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达,得到开放长格式视频问答的结果;
其中卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成,利用得到的单词级别的问题语义表达进行平均池化操作后得到全局问题表达,利用得到的第z个卷积注意力序列层中卷积层的输出、平均池化操作后得到全局问题表达与最终多流视频语义表达,按照设定公式计算得到第z个卷积注意力序列层中注意力层的输出,经过Z个卷积注意力序列层堆叠而成的卷积多步骤注意力解码器网络模型,得到卷积多步骤注意力解码器网络模型的输出,按照设定公式计算得到所预测答案每个步骤的单词输出,按照设定公式作为整个模型的训练函数,训练得到卷积双向自注意网络。
2.根据权利要求1所述的利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,所述步骤1)具体为:
位置时间信号计算方法如下列公式所示,
其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度;
帧表达特征为v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数;将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达v={v1',v2',...,vn'};
单词级别的问题表达为q=(q1,q2,...,qr),其中r代表问题中含有的单词个数;将获取的单词级别的问题表达q=(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加,获得带有位置信息的问题文本表达q={q1',q2',...,qn'};
对于堆叠卷积序列模型中第l个卷积序列层,其输入序列表达为输出序列表达为输入序列表达按照如下公式计算得到输出序列表达,
其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B代表2d维向量[A,B]中的后d维度元素值构成的向量,代表按元素相乘操作,δ()代表sigmoid函数计算;
帧级别的视频语义表达为
单词级别的问题语义表达为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司,未经杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910167951.0/1.html,转载请声明来源钻瓜专利网。





