[发明专利]语音处理方法、装置以及电子设备有效
申请号: | 201910463203.7 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110197658B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 孙建伟 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 以及 电子设备 | ||
本申请提出一种语音处理方法、装置以及电子设备,其中,方法包括:采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层;对解码层和输出层复制,得到多个分支;每一个分支包括一个解码层和对应的一个输出层,根据多个分支和第一声学模型的编码层,生成第二声学模型,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。由于经过训练的第二声学模型的各分支采用相应类型的训练样本进行训练,因此,将不同类型的语音输入相应类型的分支进行语音识别,能够准确识别出不同类型的语音,从而提高了语音识别的准确度。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音处理方法、装置以及电子设备。
背景技术
随着语音识别技术的飞速发展,语音识别技术得到广泛地应用,其中,语音识别系统在智能终端设备以及智能家居中的应用正在日益改变着人类的生活和生产方式。例如,用户可以通过手机助手控制智能手机。
但是,现有的语音识别系统均采用单头声学模型识别语音,导致不用的硬件设备采集的语音存在差异时,语音识别的准确率较低的技术问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
本申请实施例提出一种语音处理方法,通过采用各类型的训练样本对第二声学模型的各分支进行训练,将不同类型的语音输入相应类型的分支进行语音识别,能够准确识别出不同类型的语音,从而提高了语音识别的准确度,解决了现有技术中不同硬件设备采集的音频存在差异的情况下,采用同一个单头模型识别导致识别不准确的技术问题。
本申请第一方面实施例提出了一种语音处理方法,包括:
采用训练样本集,对第一声学模型进行训练,其中,所述第一声学模型包括编码层、解码层和输出层;
对所述解码层和所述输出层复制,得到多个分支;每一个分支包括一个所述解码层和对应的一个所述输出层;
根据所述多个分支和所述第一声学模型的编码层,生成第二声学模型;
采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。
作为本申请第一种可能的实现方式,所述训练样本包括语音的原始音频特征和语音对应文本标注的参考发音信息,所述采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,包括:
采用所述第二声学模型的编码层对所述训练样本中的原始音频特征进行编码;
根据所述训练样本的类型,将对应的编码输入匹配所述类型的分支,得到输出发音信息;
根据所述参考发音信息与所述输出发音信息之间的差异,对所述匹配所述类型的分支进行参数调整,以使所述差异最小化。
作为本申请第二种可能的实现方式,所述原始音频特征,包括滤波器FBank特征。
作为本申请第三种可能的实现方式,所述采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练之前,还包括:
根据所述训练样本的来源和/或适用业务场景划分类别。
作为本申请第四种可能的实现方式,所述第一声学模型还包括注意力层;
所述第二声学模型相应包括所述注意力层。
作为本申请第五种可能的实现方式,所述采用经过训练的第二声学模型进行语音识别,包括:
采用所述第二声学模型的编码层对待识别的目标语音进行编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910463203.7/2.html,转载请声明来源钻瓜专利网。