[发明专利]基于统计模型的语音端点检测方法及装置有效
申请号: | 201510587721.1 | 申请日: | 2015-09-15 |
公开(公告)号: | CN105261357B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 贺利强;潘复平 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L21/02;G10L15/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统计 模型 语音 端点 检测 方法 装置 | ||
技术领域
本发明涉及语音识别技术领域,特别涉及一种基于统计模型的语音端点检测方法及装置。
背景技术
随着人机信息交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,语音端点检测是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。端点检测准确与否,会直接影响到语音识别系统的性能。如果端点切分出现错误,则会导致漏识别或者误识别等情况的发生,进而可导致语音识别结果不准确。
目前,传统的语音端点检测方法主要是获取时域或频域能量,并与给定的阈值进行比较,从而判断出语音的起始点和终止点。端点检测的一般过程为:1、分帧提取语音特征,计算时域或频域能量;2、将能量值与阈值比较,判断语音起始点;3、若找到语音起始点,则继续向后取能量值与阈值比较,判断语音是否结束;4、若找到语音结束点,则终止查找,返回结果。
然而,在实现本发明的过程中发明人发现上述语音端点检测算法至少存在以下问题:(1)上述语音端点检测方法适用于平稳噪声,且高信噪比的环境,但在非平稳噪声、较低信噪比环境下,上述语音端点检测方法的检测效果不好,所检测的语音端点的准确率较低;(2)对于不同信噪比下的语音信号,很难选取合适的阈值,无法保证安静环境下的检测精度和噪声环境下的检测精度。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种基于统计模型的语音端点检测方法,该方法通过置信度信息对初步检测出的语音端点进行调整的端点检测方式,准确定位了待检测语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。
本发明的第二个目的在于提出一种基于统计模型的语音端点检测装置。
为实现上述目的,本发明第一方面实施例的基于统计模型的语音端点检测方法,包括:接收输入的待检测语音信号;分帧提取所述待检测语音信号的第一语音特征信息,并对所述第一语音特征信息进行抗噪处理,以生成所述待检测语音信号的第二语音特征信息;根据所述第二语音特征信息和声学模型生成所述待检测语音信号的识别结果;根据所述识别结果和预设静音检测算法初步检测出所述待检测语音信号的语音端点;以及计算所述待检测语音信号的置信度信息,并根据所述置信度信息对所述语音端点进行调整。
本发明实施例的基于统计模型的语音端点检测方法,接收输入的待检测语音信号,分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理,以生成待检测语音信号的第二语音特征信息,根据第二语音特征信息和声学模型生成待检测语音信号的识别结果,根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点;以及计算待检测语音信号的置信度信息,并根据置信度信息对语音端点进行调整。由此,提供了一种通过置信度信息对初步检测出的语音端点进行调整的端点检测方式,准确定位了待检测语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。
为实现上述目的,本发明第二方面实施例的基于统计模型的语音端点检测装置,包括:接收模块,用于接收输入的待检测语音信号;抗噪模块,用于分帧提取所述待检测语音信号的第一语音特征信息,并对所述第一语音特征信息进行抗噪处理,以生成所述待检测语音信号的第二语音特征信息;生成模块,用于根据所述第二语音特征信息和声学模型生成所述待检测语音信号的识别结果;识别模块,用于根据所述识别结果和预设语音端点检测算法初步检测出所述待检测语音信号的语音端点;计算模块,用于计算所述待检测语音信号的置信度信息;调整模块,用于根据所述置信度信息对所述语音端点进行调整。
本发明实施例的基于统计模型的语音端点检测装置,通过接收模块接收输入的待检测语音信号,抗噪模块分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理,以生成待检测语音信号的第二语音特征信息,生成模块根据第二语音特征信息和声学模型生成待检测语音信号的声学识别结果,识别模块根据声学识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点,计算模块计算待检测语音信号的置信度信息,调整模块根据置信度信息对语音端点进行调整。由此,提供了一种通过置信度信息对初步检测出的语音端点进行调整的端点检测方式,准确定位了待检测语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。
附图说明
图1是根据本发明一个实施例的基于统计模型的语音端点检测方法的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510587721.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种说话人识别方法
- 下一篇:屏幕检测装置及其检测方法