[发明专利]语音端点检测方法、装置、电子设备及可读存储介质有效
| 申请号: | 202110513939.8 | 申请日: | 2021-05-12 |
| 公开(公告)号: | CN112992191B | 公开(公告)日: | 2021-11-05 |
| 发明(设计)人: | 李作强;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
| 主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/84;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京北汇律师事务所 11711 | 代理人: | 马亚坤 |
| 地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 端点 检测 方法 装置 电子设备 可读 存储 介质 | ||
1.一种语音端点检测方法,其特征在于,包括:
获取音频语音信息,并对所述音频语音信息进行分帧处理得到帧语音数据;
提取所述帧语音数据的第一数据;其中,所述第一数据包括Fbank频域特征和/或用于表征语音信号的时域特征;
对所述第一数据进行处理得到第二数据;其中,所述第二数据包括比所述第一数据更多的局部信息;
对所述第二数据进行分类处理,得到语音/非语音信息后验概率;对所述语音/非语音信息后验概率进行平滑处理得到平滑处理后的语音/非语音信息概率;
针对所述语音/非语音信息概率,计算在指定大小的滑动窗口内第j帧的置信度;其中j为自然数;
根据所述第j帧的置信度确定语音端点的起点和尾点;对所述第一数据进行处理得到第二数据包括:
将所述第一数据进行特征变换处理,转换成指定格式的数据;将所述指定格式的数据输入至深度可分离卷积网络,得到所述第二数据;
对所述第二数据进行分类处理,得到语音/非语音信息后验概率包括:
将所述第二数据依次输入wavnet网络层和softmax分类函数,得到所述语音/非语音信息后验概率;
根据所述第j帧的置信度确定语音端点的起点和尾点包括:
设置区分语音信息和非语音信息的阈值判决门限值;
将第j帧的置信度与所述阈值判决门限值进行比较,得到比较结果;
在第j帧的置信度大于或者等于所述阈值判决门限值时,确定第j帧为语音信息;在第j帧的置信度小于所述阈值判决门限值时,确定第j帧为非语音信息;
根据第j帧为语音信息或者为非语音信息的判断结果确定语音端点的起点和尾点;对所述语音/非语音信息后验概率进行平滑处理得到平滑处理后的语音/非语音信息概率包括:
采用一个固定窗长的平滑窗口来平滑训练softmax分类函数输出的语音/非语音信息后验概率,为经平滑窗口平滑处理后的语音/非语音信息概率输出,为网络后验概率经下面公式处理后的输出:
其中是平滑窗口内第一帧的索引值;针对所述语音/非语音信息概率,计算在指定大小的滑动窗口内第j帧的置信度包括:
在大小为的滑动窗口内,第j帧的置信度通过下式计算:
其中,是平滑窗口内第一帧的索引值。
2.根据权利要求1所述的语音端点检测方法,其特征在于,在第j帧的置信度大于或者等于所述阈值判决门限值时,确定第j帧为语音信息;在第j帧的置信度小于所述阈值判决门限值时,确定第j帧为非语音信息之后还包括:
在确定第m1帧之后的连续n1帧为语音信息的情况下,将第m1帧之前的第m2帧作为语音端点的起点;其中,所述第m1帧与所述第m2帧间隔第一数量的帧数;
在确定第m3帧之后的连续n2帧为非语音信息的情况下,将第m3帧之后的第m4帧作为语音端点的尾点;其中,所述第m3帧与所述第m4帧间隔第二数量的帧数;其中,所述第m3帧位于所述第m2帧之后。
3.根据权利要求1所述的语音端点检测方法,其特征在于,在第j帧的置信度大于或者等于所述阈值判决门限值时,确定第j帧为语音信息;在第j帧的置信度小于所述阈值判决门限值时,确定第j帧为非语音信息之后还包括:
获取第m5帧、第m6帧、第m7帧和第m8帧;
在第m5和m6帧为语音信息,第m5帧和第m6帧之间的所有帧均为语音信息,第m7和第m8帧为语音信息,第m7帧和第m8帧之间的所有帧均为语音信息,并且第m6帧和第m7帧之间的所有帧为非语音信息时,确定第m5帧至第m8帧为语音信息;其中,第m6帧和第m7帧间隔的帧数小于第一阈值;或者,
在第m9和m10帧为非语音信息,第m9帧和第m10帧之间的所有帧均为非语音信息,第m11和第m12帧为非语音信息,第m11帧和第m12帧之间的所有帧均为非语音信息,并且第m10帧和第m11帧之间的所有帧为语音信息时,确定第m9帧至第m12帧为非语音信息;其中,第m10帧和第m11帧间隔的帧数小于第二阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110513939.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能数控复合磨床
- 下一篇:一种局部大面形误差智能补偿干涉检测系统和方法





