[发明专利]一种基于深度学习的音视频处理方法和装置有效
| 申请号: | 202111495106.X | 申请日: | 2021-12-09 |
| 公开(公告)号: | CN114363631B | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 余丹;兰雨晴;黄永琢;王丹星;唐霆岳 | 申请(专利权)人: | 慧之安信息技术股份有限公司 |
| 主分类号: | H04N19/52 | 分类号: | H04N19/52;H04N19/85;G06N3/04;G06N3/08 |
| 代理公司: | 北京广技专利代理事务所(特殊普通合伙) 11842 | 代理人: | 张国香 |
| 地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 视频 处理 方法 装置 | ||
本申请提供了一种基于深度学习的音视频处理方法和装置,涉及数据处理技术领域。该方法通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;随后根据相关数据准确度和非相关数据准确度来判断当前深度学习与神经网络预测的级别;进而将预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。可以看到,本申请实施例通过深度学习与神经网络的预测代替传统的函数预测方案,对压缩之后的音视频帧进行预测,可以提高预测的效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于深度学习的音视频处理方法和装置。
背景技术
音视频压缩的目标是在尽可能保证听觉和视觉效果的前提下减少音视频数据率,音视频压缩比一般指压缩后的数据量与压缩前的数据量之比。相关技术中对音视频的压缩主要是只保留I帧以及其他帧的运动向量,从I帧预测出P帧与B帧,预测方法较为固定,需要存储很多信息,耗费计算资源。虽然这样的编码方式可以将码流压缩至很小,但是很难从已经压缩过的码流预测还原出未压缩过的完整码流,故当需要完整码流时只能重新传输完整码流。因此,亟需解决这一技术问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的基于深度学习的音视频处理方法和装置,通过深度学习与神经网络的预测代替传统的函数预测方案,可以提高预测的效率。所述技术方案如下:
第一方面,提供了一种基于深度学习的音视频处理方法,包括以下步骤:
通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;
根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;
根据所述相关数据准确度和所述非相关数据准确度来判断当前深度学习与神经网络预测的级别;
将所述预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。
在一种可能的实现方式中,所述条格为终端上存在一个多行一列的竖条格,所述竖条格的每一行即为一个独立条格,每一行的独立条格都可以单独被控制进行点亮和熄灭。
在一种可能的实现方式中,利用如下公式根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度:
其中L(i)表示通过深度学习与神经网络预测的第i帧的相关数据准确度;F(i)表示通过深度学习与神经网络预测的第i帧的非相关数据准确度;其中若则L(i)=1,若则F(i)=1;Di(a)表示通过深度学习与神经网络预测的第i帧二进制形式数据中的第a位上的二进制数;Di,0(a)表示音视频流的原始数据的第i帧二进制形式数据中的第a位上的二进制数;Gi(a)表示特征检测函数,若音视频流的原始数据的第i帧二进制形式数据中第a位上的二进制数为特征数即可反映音视频流的特征数值时函数值Gi(a)=1,反之函数值Gi(a)=0;mi表示音视频流的原始数据的第i帧二进制形式数据中二进制数的位数;||表示求取绝对值;[]10表示将括号内的数值转换为十进制。
在一种可能的实现方式中,利用如下公式根据所述相关数据准确度和所述非相关数据准确度得到传输至工作人员终端的二进制数据:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧之安信息技术股份有限公司,未经慧之安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111495106.X/2.html,转载请声明来源钻瓜专利网。





