[发明专利]基于多层注意力和BiGRU的专业立体视频舒适度分类方法有效
申请号: | 202110016985.7 | 申请日: | 2021-01-07 |
公开(公告)号: | CN112613486B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 牛玉贞;郑愈明;彭丹泓 | 申请(专利权)人: | 福州大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/26;G06N3/048;G06V10/82;G06V10/762;G06N3/084;G06N5/04 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多层 注意力 bigru 专业 立体 视频 舒适 分类 方法 | ||
1.一种基于多层注意力和BiGRU的专业立体视频舒适度分类方法,其特征在于,包括如下步骤:
步骤S1、对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;
步骤S2、帧级处理,将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理,使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知;所述步骤S2具体包括以下步骤:
步骤S21、对一个镜头内的帧进行稀疏采样,随机选取顺序的8帧;
步骤S22、从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知,且a的取值范围在2-8之间;给定视频V,两帧之间的时序关系T2(V)表示成下式:
其中,fi和fj分别表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception的基础特征提取网络提取出的视频第i帧和第j帧的特征,是一个两层的多层感知机,每层有256个单元,θ是多层感知机的参数;3-8帧间的时序关系T3(V)、T4(V)、T5(V)、T6(V)、T7(V)和T8(V)分别表示成下式:
其中,fi、fj、fk、fl、fm、fn、fo和fp表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception的基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征,表示用于提取a帧之间时序关系的一个两层的多层感知机,每层有256个单元,θ是多层感知机的参数;
步骤S23、将镜头内各种时间尺度的帧间时序关系进行拼接得到帧级特征Tall(V),计算公式如下所示:
Tall(V)=[T2(V),T3(V),T4(V),T5(V),T6(V),T7(V),T8(V)]
步骤S3、帧级注意力处理,对每个镜头内帧间的时序关系进行加权求和得到最终的帧级特征;
步骤S4、镜头级处理,使用循环神经网络双向门控循环单元对连续多个镜头的帧级特征进行感知,输出隐藏状态集合;
步骤S5、镜头级注意力处理,对步骤S4输出的隐藏状态集合进行加权求和得到最终的镜头级特征;
步骤S6、双流融合,使用通道注意力网络对步骤S5输出的镜头级特征进行融合得到最终的隐藏状态;
步骤S7、最终的隐藏状态经过分类网络输出分类概率,并将专业立体视频分类为适合儿童观看或仅适合成人观看,从步骤S2至此即得到构建好的专业立体视频视觉舒适度分类模型;对所述专业立体视频视觉舒适度分类模型进行训练,训练过程中通过求解最小化损失函数,学习到专业立体视频视觉舒适度分类模型的最优参数,并保存训好的模型;
步骤S8、将待测试视频集合的左视图和对应的视差图输入训练好的模型中进行分类预测。
2.根据权利要求1所述的基于多层注意力和BiGRU的专业立体视频舒适度分类方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11、使用多媒体视频处理工具将视频分割成一帧帧图像;
步骤S12、利用镜头划分算法将立体视频划分为互不重叠的视频片段,每一个片段称为一个镜头;
步骤S13、将每一帧分割为左、右视图,使用SiftFlow算法计算左右视图中对应像素点的水平位移,作为视差图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110016985.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电机伸缩式按摩的控制系统
- 下一篇:一种基于FPGA的逆时偏移成像方法
- 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法
- 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置
- 一种基于ERNIE-BiGRU的中文文本分类方法
- 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质
- 一种基于BiGRU的智能电表计量模块故障预测与诊断方法
- 基于边缘注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质
- 一种预测化合物蛋白质亲和力的新型深度学习模型、计算机设备、存储介质
- 基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质
- 一种基于ATAE-BiGRU的文本方面情感分类方法及系统
- 一种基于自注意力机制和BiGRU的文本分类方法