[发明专利]用于儿童的语音识别方法及系统有效
申请号: | 201910516503.7 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110246489B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 钱彦旻;李晨达 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/065 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;黄谦 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 儿童 语音 识别 方法 系统 | ||
本发明实施例提供一种用于儿童的语音识别方法。该方法包括:通过成人训练语料库确定成人训练语料库内各音频的声学特征;基于预设目标儿童语音的声学特征对成人训练语料库中各音频进行韵律调整,以使得成人训练语料库内各音频的声学特征与目标儿童语音的声学特征匹配;根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型,通过语音识别模型识别儿童语音。本发明实施例还提供一种用于儿童的语音识别系统。本发明实施例通过调节成人训练语料库的韵律,使其达到儿童和成人的声学特征的匹配,进而不需要收集儿童语料库,使用声学特征匹配后的成人训练语料库训练语音识别系统,提高了所述语音识别系统对儿童语音的识别性能。
技术领域
本发明涉及语音识别领域,尤其涉及一种用于儿童的语音识别方法及系统。
背景技术
近年来,已经有许多方法来改进ASR(automatic speech recognition,自动语音识别)系统的性能,凭借着大量的培训数据和先进的模型结构,自动语音识别系统的开发取得了重大进展。然而,现代ASR系统仍然存在的一个挑战是儿童的语音识别。
改善自动语音识别系统的儿童语音识别的一种方法是在训练中引入更多儿童训练语料库。基于DNN(Deep Neural Network,深度神经网络)的ASR系统由数据驱动,通过大量的数据训练,自动语音识别系统的性能可以更好。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
大多数公共语料库收集的都是成年人的语音。用于自动语音识别训练的儿童语料库很难收集。由于儿童的声道韵律区别于成人,当将成人语料库训练的自动语音识别系统应用于儿童的语音时,儿童和成人的声音之间的不匹配导致性能下降。
发明内容
为了至少解决现有技术中儿童语料库很难收集,由于儿童和成人的声音之间的不匹配,使用成人语料库训练的ASR系统应用于儿童的语音时性能不佳的问题。
第一方面,本发明实施例提供一种用于儿童的语音识别方法,包括:
通过成人训练语料库确定所述成人训练语料库内各音频的声学特征;
基于预设目标儿童语音的声学特征对所述成人训练语料库中各音频进行韵律调整,以使得所述成人训练语料库内各音频的声学特征与目标儿童语音的声学特征匹配;
根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型,通过所述语音识别模型识别儿童语音。
第二方面,本发明实施例提供一种用于儿童的语音识别方法,包括:
确定采集到儿童语音的声学特征;
基于预设目标成人语音的声学特征修改所述儿童语音的韵律,生成拟成人语音,以使得所述儿童语音与所述目标成人语音的声学特征匹配,所述韵律包括基本频率;
根据已有成人语音识别模型识别所述拟成人语音,以实现儿童语音的识别。
第三方面,本发明实施例提供一种用于儿童的语音识别系统,包括:
声学特征确定程序模块,用于通过成人训练语料库确定所述成人训练语料库内各音频的声学特征;
特征匹配程序模块,用于基于预设目标儿童语音的声学特征对所述成人训练语料库中各音频进行韵律调整,以使得所述成人训练语料库内各音频的声学特征与目标儿童语音的声学特征匹配;
语音识别程序模块,用于根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型,通过所述语音识别模型识别儿童语音。
第四方面,本发明实施例提供一种用于儿童的语音识别系统,包括:
声学特征确定程序模块,用于确定采集到儿童语音的声学特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910516503.7/2.html,转载请声明来源钻瓜专利网。