[发明专利]一种基于音频特征参数的多语种场景分析方法在审
| 申请号: | 201810962497.3 | 申请日: | 2018-08-22 | 
| 公开(公告)号: | CN109036458A | 公开(公告)日: | 2018-12-18 | 
| 发明(设计)人: | 龙华;周金傲;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 | 
| 主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/45;G10L25/51;G10L25/18;G10L17/26;G10L17/00;G10L15/02;G10L15/00 | 
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 | 
| 地址: | 650093 云*** | 国省代码: | 云南;53 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 多语种 语种 音频信号信息 场景分析 方法提取 音频特征参数 语音信号 多段 录制 音频信号处理 语音信号录制 倒谱分析 加窗函数 录制软件 频域分析 频域特征 时域特征 特征参数 特征量 预加重 分帧 用时 样本 分析 | ||
1.一种基于音频特征参数的多语种场景分析方法,其特征在于:
(1)录制样本:针对多段不同内容的样本,对各种语种进行语音信号录制,分别对每个语种进行相同时间的录制,时间一定,录制软件为GoldWave,格式为Wav,录制后得到每种语种的多段对比语音信号;
(2)预处理:先进行A/D转换,然后预加重处理,再进行分帧处理,最后对语音信号进行加窗函数处理;
(3)提取特征参数:用时域分析方法提取待测的多语种音频信号信息的时域特征参数;用频域分析方法提取待测的多语种音频信号信息的频域特征参数;用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数;
(4)利用提取的各个语种的特征量,分析各语种之间的差异,进行多语种的场景分析和判别。
2.根据权利要求1所述的基于音频特征参数的多语种场景分析方法,其特征在于:所述预处理包括四个步骤:A/D转换、预加重处理、分帧处理、加窗函数;
(1)A/D转换:将数字信号转化为模拟信号;
(2)预加重处理:将语音信号通过一个高通滤波器,采用数字电路的方式提升语音中的高频部分,得到利于频谱处理的信号样本。
(3)分帧处理:将信号分为较短的帧,视为可被处理的稳态信号,令帧与帧之间有帧移,取帧长的1/2。
(4)加窗函数:对分帧过的语音样本进行加窗函数处理,得到的每一帧语音乘以汉明窗或海宁窗。
3.根据权利要求1所述的基于音频特征参数的多语种场景分析方法,其特征在于:
所述时域特征参数包括短时平均过零率、短时自相关函数、短时能量、高过零率帧的比重、低能量帧的比重、短时平均幅度;
所述频域特征参数是短时功率谱密度函数;
所述倒谱域特征参数包括梅尔频率倒谱系数和线性预测倒谱系数。
4.根据权利要求1所述的基于音频特征参数的多语种场景分析方法,其特征在于:所述多语种场景分析包括以下步骤:
(1)短时平均过零率:提取语音信号的短时平均过零率,得到待测语音信号的短时平均过零率参数;
(2)短时能量:提取语音信号的短时能量,得到待测语音信号的短时能量参数;
(3)短时互相关函数:提取两种语音信号的短时互相关函数,得到两个语音信号的相关程度;
(4)短时平均幅度:提取语音信号的短时平均幅度,得到待测语音信号的短时平均幅度参数;
(5)高过零率帧的比重:提取语音信号的高过零率帧的比重,得到待测语音信号的高过零率帧的比重参数;
(6)低能量帧的比重:提取语音信号的低能量帧的比重,得到待测语音信号的低能量帧的比重参数;
(7)短时功率谱密度函数:提取语音信号的短时功率谱密度函数,得到待测语音信号的短时功率谱密度函数参数;
(8)梅尔频率倒谱系数:提取语音样本优化过的梅尔频率倒谱系数,得到待测语音信号的梅尔频率倒谱系数参数;
(9)线性预测倒谱系数:提取语音样本的线性预测倒谱系数,得到待测语音信号的线性预测倒谱系数参数;
(10)强得到的参数进行音频特征参数比对和场景分析,利用matlab得到每种语种的特点,从而识别出不同语种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810962497.3/1.html,转载请声明来源钻瓜专利网。





