[发明专利]音频数据的编码方法及解码方法有效
申请号: | 201210487489.0 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103035238A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | 陶建华;刘斌;潘诗锋 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L19/24 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 曹玲柱 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 数据 编码 方法 解码 | ||
1.一种音频数据的编码方法,其特征在于,包括:
获取原始音频,通过短时能量和短时过零率进行端点检测,剔除所述原始音频中的非音频数据,获得语音段数据;
从所述语音段数据提取特征参数,通过已训练的隐马尔科夫模型和Viterbi算法,对每帧语音段数据进行状态识别,确定状态序列和状态时长;以及
对所述状态序列和状态时长进行编码,生成音频数据包。
2.根据权利要求1所述的编码方法,其特征在于,所述通过短时能量和短时过零率进行端点检测,剔除原始音频中的非音频数据包括:
将原始音频等间隔分成若干子段,计算每段原始音频的短时能量和短时过零率;以及
将每段原始音频的短时能量和短时过零率分别与预先设定的短时能量和短时过零率的两个门限进行比较,根据比较结果将采集的音频数据分为静音段、过渡段和语音段,去除静音段和过渡段,仅保留语音段数据。
3.根据权利要求1所述的编码方法,其特征在于,所述对去噪的语音段数据提取特征参数,通过已训练的隐马尔科夫模型和Viterbi算法,对每帧语音段数据进行状态识别,确定状态序列和状态时长的步骤包括:
对于每帧音频数据,对其进行特征参数提取,提取梅尔频率倒谱系数;
利用提取的每帧音频数据的梅尔频率倒谱系数,通过训练好的隐马尔科夫模型和Viterbi算法进行状态识别,确定最优状态序列;以及
对识别出的状态序列进行纠错处理,确定最终生成的状态序列以及各状态的时长,从而保证状态识别的准确性。
4.根据权利要求3所述的编码方法,其特征在于,所述通过训练好的隐马尔科夫模型和Viterbi算法进行状态识别的步骤之前还包括:
对剔除非音频数据并滤除噪声的训练语料提取谱参数和基频;
利用提取的谱参数和基频进行模型的初始训练,确定模型的初始概率、观测概率和转移概率,每个音素对应一个隐马尔科夫模型,每个隐马尔科夫模型包含5个状态,不同状态对应于不同的分布;
对状态进行聚类,根据谱参数、基频将相似的状态归为1类;以及
根据状态聚类的结果,更新模型的初始概率、观测概率和转移概率,通过Viterbi算法重新调整不同状态之间边界,经过多次迭代优化模型参数后确定最终的隐马尔科夫模型。
5.根据权利要求1所述的编码方法,其特征在于,所述对每个语音段数据的状态序列和状态时长进行编码包括:
对状态序列以及状态时长根据相应的码值进行编码,传输对应码值的编号,其中每个状态对应一个码值,不同时长对应于相应的码值;以及
将状态序列及状态时长的码值组成音频数据包,其中,数据包第一位作为同步头,每个状态信息按照时间顺序依次排列,数据包最后一位作为奇偶校验位。
6.根据权利要求1至5中任一项所述的编码方法,其特征在于,从语音段数据提取特征参数的步骤之前还包括:
采取小波去噪方法降低语音段数据中的噪声干扰。
7.一种对权利要求1至5中任一项编码方法获得的音频数据包进行解码的方法,其特征在于,包括:
对接收到的音频数据包进行解码,提取状态序列以及各状态时长参数;以及
对状态序列和状态时长通过训练好的隐马尔科夫模型和动态参数生成算法确定每帧数据的谱参数和基频,通过声码器生成音频数据。
8.根据权利要求7所述的解码方法,其特征在于,所述对接收到的音频数据包进行解码,提取状态序列以及各状态时长参数的步骤包括:
对音频数据包的校验信息进行检验,判断同步头和奇偶校验位的正确性;以及
在确定数据包在通信系统中正确传输后,对状态序列和状态时长进行解码,通过相应的状态码值和时长码值依次解析各状态的类别和时长。
9.根据权利要求7所述的解码方法,其特征在于,所述对状态序列和状态时长通过训练好的隐马尔科夫模型和动态参数生成算法确定每帧数据的谱参数和基频,通过声码器生成音频数据的步骤包括:
在已知状态序列以及各状态时长的基础上,通过训练好的隐马尔科夫模型和动态参数生成算法计算最优的参数序列;以及
利用上述的最优参数序列通过声码器生成音频数据。
10.根据权利要求7至9中任一项所述的解码方法,其特征在于,所述生成音频数据的步骤之后还包括:
对音频数据增加适当的背景噪声,以增加语音的真实感。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210487489.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双线圈磁保持继电器
- 下一篇:电镀连接件
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置