[发明专利]一种基于音频分类的音质设置方法在审

申请号：	201811278861.0	申请日：	2018-10-30
公开（公告）号：	CN109087634A	公开（公告）日：	2018-12-25
发明（设计）人：	高岚	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G10L15/08	分类号：	G10L15/08;G10L25/18;G10L25/45
代理公司：	四川省成都市天策商标专利事务所 51213	代理人：	李洁
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特征图像音频分类智能电视音质分类卷积神经网络音频场景语音数据音效均衡智能
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于音频分类的音质设置方法，其特征在于，包括音频特征提取模块、音频分类模块和音频设置模块，还包括以下步骤：

S1、音频特征提取；

S11、预加重，将9S的语音数据通过高通滤波器，提升语音数据中的高频部分，使信号的频谱变得平坦；

S12、分帧，采样率为22.05KHz，设置822个采样点为一帧，即一帧的时间为40ms，9S的语音数据分为225帧；

S13、加窗，将每一帧乘以汉明窗，增加左右两端的连续性；

S14、快速傅氏变换，对加窗后的每帧信号进行快速傅里叶变换，得到各帧的频谱，再对频谱取模平方，最后得到语音信号的功率谱；

S15、Mel滤波，将信号的功率谱通过Mel滤波器，将线形的自然频谱转换为体现人类听觉特性的Mel频谱，仅取每一帧信号的前224个特征；

S16、取对数，对Mel频谱取完对数，便可以得到225*224大小的频谱图，即横坐标为帧，纵坐标为Mel特征，在实际计算中，会舍弃一帧数据，即采用224*224大小的频谱图去做分类，但是此刻的频谱图的值并不全在图像0～255的范围内，为了将频谱图的值映射到图像0～255取值的范围内，本发明做了以下的线性映射计算：

f(x)＝1.5×(10x+80) (公式1)

经过公式1的计算，Mel频谱图的值基本可以映射到图像0～255的取值范围中；

S2、音频分类；

S21、音频分类模块采用深度学习的CNN卷积神经网络——MobileNet分类网络来进行语音数据的分类；

S3、音质设置；

S31、对音乐类的语音数据，通过杜比音效的音频优化器功能衰减低频部分，提升人声对应频段，使用杜比音效语音清晰功能强化人声部分效果；

S32、对新闻类的语音数据，通过杜比音效智能EQ功能勾画大致声音风格曲线，通过杜比音效重低音和环绕声等功能配合调节音效；

S33、对其他类的语音数据，默认标准模式参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司，未经四川长虹电器股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811278861.0/1.html，转载请声明来源钻瓜专利网。