[发明专利]一种基于音频分类的音质设置方法在审

申请号：	201811278861.0	申请日：	2018-10-30
公开（公告）号：	CN109087634A	公开（公告）日：	2018-12-25
发明（设计）人：	高岚	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G10L15/08	分类号：	G10L15/08;G10L25/18;G10L25/45
代理公司：	四川省成都市天策商标专利事务所 51213	代理人：	李洁
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于音频分类的音质设置方法，首先提取一段语音数据的特征，生成特征图像，然后采用卷积神经网络分类方法对特征图像进行分类。最后根据不同的分类音频，在杜比音效、均衡设置上做出相应的调整。通过自动对不同音频场景进行识别和相应设置，使Android智能电视更加智能，提升用户的使用体验，感受Android智能电视带来的乐趣。
搜索关键词：	特征图像音频分类智能电视音质分类卷积神经网络音频场景语音数据音效均衡智能
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于音频分类的音质设置方法，其特征在于，包括音频特征提取模块、音频分类模块和音频设置模块，还包括以下步骤：S1、音频特征提取；S11、预加重，将9S的语音数据通过高通滤波器，提升语音数据中的高频部分，使信号的频谱变得平坦；S12、分帧，采样率为22.05KHz，设置822个采样点为一帧，即一帧的时间为40ms，9S的语音数据分为225帧；S13、加窗，将每一帧乘以汉明窗，增加左右两端的连续性；S14、快速傅氏变换，对加窗后的每帧信号进行快速傅里叶变换，得到各帧的频谱，再对频谱取模平方，最后得到语音信号的功率谱；S15、Mel滤波，将信号的功率谱通过Mel滤波器，将线形的自然频谱转换为体现人类听觉特性的Mel频谱，仅取每一帧信号的前224个特征；S16、取对数，对Mel频谱取完对数，便可以得到225*224大小的频谱图，即横坐标为帧，纵坐标为Mel特征，在实际计算中，会舍弃一帧数据，即采用224*224大小的频谱图去做分类，但是此刻的频谱图的值并不全在图像0～255的范围内，为了将频谱图的值映射到图像0～255取值的范围内，本发明做了以下的线性映射计算：f(x)＝1.5×(10x+80) (公式1)经过公式1的计算，Mel频谱图的值基本可以映射到图像0～255的取值范围中；S2、音频分类；S21、音频分类模块采用深度学习的CNN卷积神经网络——MobileNet分类网络来进行语音数据的分类；S3、音质设置；S31、对音乐类的语音数据，通过杜比音效的音频优化器功能衰减低频部分，提升人声对应频段，使用杜比音效语音清晰功能强化人声部分效果；S32、对新闻类的语音数据，通过杜比音效智能EQ功能勾画大致声音风格曲线，通过杜比音效重低音和环绕声等功能配合调节音效；S33、对其他类的语音数据，默认标准模式参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司，未经四川长虹电器股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811278861.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于音频分类的音质设置方法在审

专利文献下载