[发明专利]一种基于电话信道的语音识别声学模型构建方法及系统在审

申请号：	202211243374.7	申请日：	2022-10-11
公开（公告）号：	CN115602158A	公开（公告）日：	2023-01-13
发明（设计）人：	龚梁;胡华;周逸聪;孙涛;程俊杰	申请（专利权）人：	武汉烽火普天信息技术有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16
代理公司：	武汉蓝宝石专利代理事务所(特殊普通合伙) 42242	代理人：	范三霞
地址：	430000 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于电话信道语音识别声学模型构建方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于电话信道的语音识别声学模型构建方法，其特征在于，包括：

对录音语音数据进行重采样，获取采样率与电话信道采样率相同的重采样录制语音数据集，所述录音语音数据为通过语音采集终端采用录音的方式录制的采样率高于电话信道采样率的语音数据；

在语音文本标注不改变的基础上，分别对所述重采样录音数据和电话信道语音数据进行数据增强处理，生成第一扩展语音数据集和第二扩展语音数据集；

将所述重采样录制语音数据集、电话信道语音数据集、第一扩展语音数据集和第二扩展语音数据集混合，生成混合训练数据集；

基于所述混合训练数据集，训练深度神经网络模型，构建电话信号语音识别声学模型。

2.根据权利要求1所述的构建方法，其特征在于，所述对录音语音数据进行重采样，获取采样率与电话信道采样率相同的重采样录制语音数据集，包括：

录制语音采样率为Fs，电话信道采用率为Fc，Fs＞Fc，重采样因子P/Q为电话信道采样率Fc和录制语音采样率Fs之间的比例，即P/Q＝Fc/Fs，且P/Q为大于0小于1的分数；

当P＝1且Q为整数时，重采样过程为：

对录制语音数据进行下采样，对录制语音数据每隔(Q-1)个点抽取一个数据点；

当P1且Q为整数时，通过重采样因子P/Q对录制语音数据进行重采样，对于采样率为Fs、长度为M个采样点的录制语音数据x[n]，重采样过程为：

(a)上采样：在原录制语音数据相邻两点内插入(P-1)个零点，即创建有P(M-1)+1个采样点的信号xu[n]，当n＝1，2，…，M时，xu[P(n-1)+1]＝x[n]；否则，xu[n]＝0；

(b)插值滤波：xu[n]和一个低通插值滤波器h[n]作卷积：xi[n]＝xu[n]h[n]。

(c)下采样：对插值滤波后的录制语音数据，每隔(Q-1)个点抽取一个数据点，即创建有(P(M-1)+1)/Q+1个点的信号xd[n]，下采样信号y[n]＝xd[n]，对下采样后的语音数据进行滤波处理，最终重采样为采用率为Fc的录制语音数据。

3.根据权利要求1所述的构建方法，其特征在于，所述通过语音采集终端采用录音方式录制的语音数据的录音文本，其文本内容专业领域覆盖所需识别电话语音信号的专业领域，且专业词汇读音与电话信道中电话语音数据专业词汇读音具有一致性；

对于电话信道语音数据和重采样语音数据的文本标注为采用相同的分词方式和分词词典进行标注。

4.根据权利要求1所述的构建方法，其特征在于，所述在语音文本标注不改变的基础上，分别对所述重采样录音数据和电话信道语音数据进行数据增强处理，生成第一扩展语音数据集和第二扩展语音数据集，包括：

分别通过语音速度扰动、音量扰动、频率扰动、语音加噪和语音加混响五种语音数据增强方式对所述重采样录音数据和电话信道语音数据进行数据增强处理，生成第一扩展语音数据集和第二扩展语音数据集；

其中，所述第一扩展语音数据集的总时长与所述重采样录音数据的总时长的比例近似为1，所述第二扩展语音数据集的总时长和所述电话信道语音数据的总时长的比例近似为1。

5.根据权利要求4所述的构建方法，其特征在于，所述分别通过语音速度扰动、音量扰动、频率扰动、语音加噪和语音加混响五种语音数据增强方式对所述重采样录音数据和电话信道语音数据进行数据增强处理，生成第一扩展语音数据集和第二扩展语音数据集，包括：

将所述重采样录音数据和电话信道语音数据分别随机平均划分为七份，选取其中五份将每一份语音数据分别采用五种语音数据增强方式中的一种进行语音数据增强处理，选取剩余的两份中的一份语音数据先进行速度扰动语音数据增强处理后进行音量扰动数据增强处理，将剩余的最后一份先进行语音加噪数据增强处理后进行语音加混响数据增强处理，最后将进行语音数据增强数据处理的七份语音数据重新合并，分别生成第一扩展语音数据集和第二扩展语音数据集。

6.根据权利要求5所述的构建方法，其特征在于，所述语音加躁数据增强处理包括：

选取不同的噪声数据；

利用信噪比分布函数，向需要进行加噪的语音数据叠加所述噪声数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉烽火普天信息技术有限公司，未经武汉烽火普天信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211243374.7/1.html，转载请声明来源钻瓜专利网。

上一篇：应用程序调试方法、装置、设备和存储介质
下一篇：一种三维尼龙打印机粉末处理装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于电话信道的语音识别声学模型构建方法及系统在审

专利文献下载