[发明专利]噪声环境下层级式语音降噪识别方法及系统在审
| 申请号: | 201910314867.7 | 申请日: | 2019-04-18 |
| 公开(公告)号: | CN110047502A | 公开(公告)日: | 2019-07-23 |
| 发明(设计)人: | 刘嗣平;陈婉菁;徐艳艳;贾宇康;陈孟达 | 申请(专利权)人: | 广州九四智能科技有限公司 |
| 主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L15/06;G10L15/04 |
| 代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 刘自丽 |
| 地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 有效语音 文本 纯净语音 声学模型 声学特征 语言模型 原始语音 噪声环境 语音 降噪 下层 噪声 文本数据库 语音数据库 准确度 端点检测 降噪处理 结果序列 神经网络 文本训练 线性组合 训练语音 语音增强 层级式 客户 录入 录制 搜索 通话 检测 | ||
本发明公开了一种噪声环境下层级式语音降噪识别方法及系统,方法包括如下步骤:设置通话常用的文本,并进行文本的录入;使用设置好的文本建立文本数据库;根据文本进行纯净语音和各类噪声的录制;将纯净语音与各类噪声进行线性组合,建立语音数据库;对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取出有效语音;将有效语音通过层级式方法训练语音增强深度神经网络;有效语音经过语音增强后再提取其声学特征;使用声学特征训练声学模型;使用文本训练语言模型;利用声学模型和语言模型进行搜索得到最佳的识别结果序列。本发明通过对客户的原始语音的降噪处理,能够提高对客户原始语音的识别准确度。
技术领域
本发明涉及语音识别领域,特别涉及一种噪声环境下层级式语音降噪识别方法及系统。
背景技术
目前的语音识别技术发展迅速,在实验室环境下,识别效果已经非常理想了。但是,在应用于客服语音中时,说话人的语音并不是纯净的,往往夹杂着日常生活中常见噪声,包括马路,汽车,飞机,火车,地铁,餐厅,酒吧,风声,雨声,菜市场等。在这种情况下,语音识别的效果会在很大程度上降低。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种通过对客户的原始语音的降噪处理,能够提高对客户原始语音的识别准确度的噪声环境下层级式语音降噪识别方法及系统。
本发明解决其技术问题所采用的技术方案是:构造一种噪声环境下层级式语音降噪识别方法,包括如下步骤:
A)设置通话常用的文本,并进行文本的录入;所述文本至少包含常用字、常用词语和有关货币金额类的量词;
B)使用设置好的所述文本建立文本数据库;
C)根据所述文本进行纯净语音和各类噪声的录制;
D)将所述纯净语音与各类噪声进行线性组合,建立语音数据库;
E)对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取出有效语音;
F)将所述有效语音通过层级式方法训练语音增强深度神经网络;
G)所述有效语音经过语音增强后再提取其声学特征;
H)使用所述声学特征训练声学模型;
I)使用所述文本训练语言模型;
J)利用所述声学模型和语言模型进行搜索得到最佳的识别结果序列。
在本发明所述的噪声环境下层级式语音降噪识别方法中,所述步骤D)进一步包括:
D1)对任意一句纯净语音与各类常见噪声进行线性组合;
D2)控制各类噪声的幅度的取值;
D3)使所述纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况。
在本发明所述的噪声环境下层级式语音降噪识别方法中,所述步骤F)进一步包括:
F1)将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段,每一个阶段相比前一阶段提升输入语音的信噪比;
F2)将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接,作为当前阶段的输入;
F3)所述语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音;
F4)训练完所述语音增强深度神经网络后,所有的语音都先经过所述语音增强深度神经网络实现降噪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州九四智能科技有限公司,未经广州九四智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910314867.7/2.html,转载请声明来源钻瓜专利网。





