[发明专利]一种基于特征融合和循环神经网络的无参考视频质量评价方法在审
申请号: | 201910938025.9 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110677639A | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 史萍;侯明;潘达;应泽峰;韩明良 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | H04N17/00 | 分类号: | H04N17/00 |
代理公司: | 11203 北京思海天达知识产权代理有限公司 | 代理人: | 沈波 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征融合 循环神经网络 视频 质量评价 视频段 质量评价指标 无参考视频 一次性处理 神经网络 时空特征 输入视频 特征规模 网络融合 视频帧 数据量 低维 多帧 运算 网络 融合 | ||
1.一种基于特征融合和循环神经网络的无参考视频质量评价方法,其特征在于:该方法包括以下步骤,
步骤1,由视频得到视频段;
对于一个视频,需要通过抽帧、裁剪、组合得到视频段,以作为VQA模型的输入;
步骤2,搭建并训练特征融合网络;
搭建并训练基于Resnet50的特征融合网络,其输入为步骤1得到的视频段,输出为1024维的特征向量;搭建并训练基于Resnet50的特征融合网络,其输入为步骤1得到的视频段,输出为1024维的特征向量:
步骤2.1,改造Resnet50为特征融合网络,输入为[(Batch-Size×T)×Channel×280×280],在Resnet50的第2个Bottleneck Layer后,调整为[(Batch-Size×1)×(Channel×T)×280×280],实现特征融合;
步骤2.2,准备训练数据,将步骤1生成的视频段作为此网络的输入,其标签为此整个视频的质量分数;
步骤2.3,训练特征融合网络,将特征融合网络末尾加上全连接层输入维度为1,输入为视频段,输出的标签为质量分数,使用MSE Loss进行训练;
步骤3,得到视频的特征向量表示;
通过训练好的特征融合网络,对每一视频段生成一个1024维的特征向量,并进而组成视频特征;
步骤4,搭建并训练循环神经网络;
搭建并训练LSTM循环神经网络,输入为步骤3输出的某一切分位置的视频特征,输出为视频的质量分数;
搭建LSTM循环神经网络,网络包含2层LSTM结构,第一层隐含层大小为2048,第二层隐含层大小为256,随后接一输出为1的全连接层;
整理训练数据,将S320得到的N段视频段的特征向量整理为N×1024作为循环神经网络的输入;
训练循环神经网络,使用视频质量分数作为标签,使用MSE Loss进行训练;
步骤5,进行视频的质量评价;
对一段视频进行切分、抽样、提取特征、质量评价。
2.根据权利要求1所述的一种基于特征融合和循环神经网络的无参考视频质量评价方法,其特征在于:由视频得到视频段的步骤如下,
步骤1.1,抽取视频帧,以4为间隔选取视频帧,其他视频帧由于冗余直接丢弃;
步骤1.2,裁剪视频帧,将每一视频帧通过划窗的方式裁剪为280×280的图像块,设一帧可裁M个图像块;
步骤1.3,组合裁剪后的图像块,在视频序列中,随机取N个起点,沿时间方向在图像块的同一位置连续取T帧,T默认取8,得到一个T×280×280的视频段,此视频段作为VQA模型输入的最小单元,一段视频得到M×N段视频段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910938025.9/1.html,转载请声明来源钻瓜专利网。