[发明专利]基于统计模型的语音端点检测方法及装置有效
申请号: | 201510587721.1 | 申请日: | 2015-09-15 |
公开(公告)号: | CN105261357B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 贺利强;潘复平 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L21/02;G10L15/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统计 模型 语音 端点 检测 方法 装置 | ||
1.一种基于统计模型的语音端点检测方法,其特征在于,包括以下步骤:
接收输入的待检测语音信号;
分帧提取所述待检测语音信号的第一语音特征信息,并对所述第一语音特征信息进行抗噪处理,以生成所述待检测语音信号的第二语音特征信息;
根据所述第二语音特征信息和声学模型生成所述待检测语音信号的识别结果;
根据所述识别结果和预设静音检测算法初步检测出所述待检测语音信号的语音端点;以及
计算所述待检测语音信号的置信度信息,并根据所述置信度信息对所述语音端点进行调整。
2.如权利要求1所述的基于统计模型的语音端点检测方法,其特征在于,所述对所述第一语音特征信息进行抗噪处理,以生成所述待检测语音信号的第二语音特征信息,具体包括:
计算所述待检测语音信号的信噪比;
根据所述信噪比从预先保存的不同信噪比和语音特征数据的对应关系中获得在所述信噪比下的语音特征数据,并根据所述语音特征数据确定累积分布函数;以及
根据所述累积分布函数对所述第一语音特征信息进行抗噪处理,以生成所述待检测语音信号的第二语音特征信息。
3.如权利要求2所述的基于统计模型的语音端点检测方法,其特征在于,还包括:
根据所述第二语音特征信息对所述累积分布函数进行更新。
4.如权利要求1所述的基于统计模型的语音端点检测方法,其特征在于,所述预设静音检测算法包括基于识别结果最优词序列的静音检测算法。
5.如权利要求4所述的基于统计模型的语音端点检测方法,其特征在于,所述根据所述识别结果和预设静音检测算法初步检测出所述待检测语音信号的语音端点,具体包括:
S11,根据所述识别结果确定当前时刻所述待检测语音信号的最优词序列,并检测所述最优词序列的尾部输出词是否为静音;
S12,若所述尾部输出词为静音,则记录在所述静音之前,且距离所述静音最近的输出词的结束时间点;
S13,进一步检测所述结束时间点在后续M帧待检测语音信号输入后是否发生变化,若所述结束时间点保持不变,则进入语音尾部静音检测的中间状态,其中,M是为预设正整数;
S14,检测当前状态是否处于所述中间状态,若处于所述中间状态,则计算所述结束时间点之后静音的长度L,并进一步判断静音的长度L是否大于第一预设阈值,若大于,则静音检测成功,并根据所述最优词序列确定所述待检测语音信号的语音起始点,并将所述结束时间点作为所述待检测语音信号的语音结束点;
S15,若所述结束时间点在静音检测成功之前发生变化,则重复执行所述步骤S11至S14。
6.如权利要求2所述的基于统计模型的语音端点检测方法,其特征在于,所述计算所述待检测语音信号的置信度信息,具体包括:
根据所述识别结果、所述待检测语音信号的语音端点和所述待检测语音信号的信噪比计算所述待检测语音信号的置信度信息。
7.如权利要求6所述的基于统计模型的语音端点检测方法,其特征在于,所述根据所述识别结果、所述待检测语音信号的语音端点和所述待检测语音信号的信噪比计算所述待检测语音信号的置信度信息,具体包括:
基于所述识别结果,计算所述语音端点之间的每个词的声学后验概率;
根据所述语音端点之间的每个词的声学后验概率和信噪比计算每个词对应的置信度信息。
8.如权利要求7所述的基于统计模型的语音端点检测方法,其特征在于,所述根据所述置信度信息对所述语音端点进行调整,具体包括:
确定置信度得分最高的词;
将置信度得分最高的词作为中心,并逐步与相邻的词的置信度进行合并,并计算每次合并后的平均置信度,直至计算出的平均置信度达到第二预设阈值;
在计算出的平均置信度达到所述第二预设阈值时,确定计算当前平均置信度的开始词和结束词,并根据所述开始词的开始时间点对所述语音起始点进行调整,根据所述结束词的结束时间点对所述语音结束点进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510587721.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种说话人识别方法
- 下一篇:屏幕检测装置及其检测方法