[发明专利]语音识别系统的端点检测方法及系统有效
申请号: | 201510413643.3 | 申请日: | 2015-07-14 |
公开(公告)号: | CN105118502B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 王凯夫;彭守业;牛建伟;贾磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/02;G10L15/16;G10L21/0208 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 系统 端点 检测 方法 | ||
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音识别系统的端点检测方法及系统。
背景技术
随着人机信息交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,语音端点检测是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。端点检测准确与否,会直接影响到语音识别系统的性能。具体地,语音端点检测的检测结果对后端的声学模型、解码器、语言模型的识别效果,都有很大的影响,如果端点切分存储错误,则会导致漏识别或者误识别等情况的发生,进而可导致语音识别结果不准确。
目前,传统的语音端点检测方法主要是获取时域或频域能量,并与给定的阈值进行比较,从而判断出语音的起始点和终止点。端点检测的一般过程为:1、分帧提取语音特征,计算时域或频域能量;2、将能量值与阈值比较,判断语音起始点;3、若找到语音起始点,则继续向后取能量值与阈值比较,判断语音是否结束;4、若找到语音结束点,则终止查找,返回结果。
然而,在实现本发明的过程中发明人发现上述语音端点检测方法少存在以下问题:(1)上述语音端点检测方法适用于平稳噪声,且高信噪比的环境,但在非平稳噪声、较低信噪比环境下,上述语音端点检测方法的检测效果不好,所检测的语音端点的准确率较低;(2)对于不同信噪比下的语音信号,很难选取合适的阈值,无法保证安静环境下的检测精度和噪声环境下的检测精度。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种语音识别系统的端点检测方法,该方法提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式,准确定位了待识别语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。
本发明的第二个目的在于提出一种语音识别系统的端点检测系统。
为实现上述目的,本发明第一方面实施例的语音识别系统的端点检测方法,包括:基于长短时记忆神经网络训练声学识别模型;通过预设语音端点检测算法初步识别出待识别语音信号的语音端点;分帧提取所述待识别语音信号的语音特征信息,并将所述语音特征信息输入所述声学识别模型,以使所述声学识别模型根据所述语音特征信息生成所述待识别语音信号的声学识别结果;以及根据所述声学识别结果对初步识别出的语音端点进行调整。
本发明实施例的语音识别系统的端点检测方法,首先基于长短时记忆神经网络训练声学识别模型,并通过预设语音端点检测算法初步识别出待识别语音信号的语音端点,然后分帧提取待识别语音信号的语音特征信息,并将语音特征信息输入声学识别模型,以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果,以及根据声学识别结果对初步识别出的语音端点进行调整。由此,提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式,准确定位了待识别语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。
为实现上述目的,本发明第二方面实施例的语音识别系统的端点检测系统,包括:训练模块,用于基于长短时记忆神经网络训练声学识别模型;预处理模块,用于通过预设语音端点检测算法初步识别出待识别语音信号的语音端点;声学识别模块,用于分帧提取所述待识别语音信号的语音特征信息,并将所述语音特征信息输入所述声学识别模型,以使所述声学识别模型根据所述语音特征信息生成所述待识别语音信号的声学识别结果;以及调整模块,用于根据所述声学识别结果对初步识别出的语音端点进行调整。
本发明实施例的语音识别系统的端点检测系统,训练模块基于长短时记忆神经网络训练声学识别模型,预处理模块通过预设语音端点检测算法初步识别出待识别语音信号的语音端点,然后声学识别模块分帧提取待识别语音信号的语音特征信息,并将语音特征信息输入声学识别模型,以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果,以及调整模块根据声学识别结果对初步识别出的语音端点进行调整。由此,提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式,准确定位了待识别语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。
附图说明
图1是根据本发明一个实施例的语音识别系统的端点检测方法的流程图。
图2是基于长短时记忆神经网络训练声学识别模型的示意图。
图3是根据本发明一个实施例的初步识别出待识别语音信号的语音端点的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510413643.3/2.html,转载请声明来源钻瓜专利网。