[发明专利]一种基于深度学习的语音端点检测方法及系统有效
申请号: | 201910917881.6 | 申请日: | 2019-09-26 |
公开(公告)号: | CN110706694B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都数之联科技股份有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/06;G10L15/16;G10L25/78 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 熊曦 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 语音 端点 检测 方法 系统 | ||
1.一种基于深度学习的语音端点检测方法,其特征在于,所述方法包括:
步骤1:利用收集的音频数据生成样本音频数据;
步骤2:分帧处理样本音频数据获得待训练语音帧,根据待训练语音帧中是否包含语音,将待训练语音帧划分为包含语音的待训练非噪声语音帧和不包含语音的待训练噪声语音帧,若干待训练非噪声语音帧和若干待训练噪声语音帧构成训练集;
步骤3:利用训练集训练深度神经网络模型,获得训练后的深度神经网络模型;
步骤4:将端点待检测语音数据输入训练后的深度神经网络模型,训练后的深度神经网络模型输出端点待检测语音数据中的所有非噪声语音帧和噪声语音帧;
步骤5:基于非噪声语音帧和噪声语音帧,获得端点待检测语音数据中的非噪声语音段和噪声语音段,提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引,获得待检测语音数据的语音端点检测结果;
步骤5.1:根据时序顺序依次拼接训练后的深度神经网络模型输出的语音帧,获得拼接后的语音段;
步骤5.2:将拼接后的语音段中连续的非噪声语音帧标记为非噪声语音段,将拼接后的语音段中连续的噪声语音帧标记为噪声语音段;
步骤5.3:将两段非噪声语音段之间的单一噪声语音帧标记为噪声语音段,将两噪声语音段之间的单一非噪声语音帧标记为非噪声语音段,获得标记后的语音段;
步骤5.4:设定合并阈值a;
步骤5.5:统计标记后的语音段中两段非噪声语音段之间的采样点数量总和,如果两段非噪声语音段之间的采样点数量总和小于合并阈值a,则将标记后的语音段中两段非噪声语音段中间的噪声语音段标记为非噪声语音段,即合并该噪声语音段相邻的两段非噪声语音段;
步骤5.6:统计标记后的语音段中两段噪声语音段之间的采样点数量总和,如果两段噪声语音段之间的采样点数量总和小于合并阈值a,则将标记后的语音段中两段噪声语音段中间的非噪声语音段标记为噪声语音段,即合并该非噪声语音段相邻的两段噪声语音段;
步骤5.7:提取所有的非噪声语音段在整段语音中的起始坐标索引和结束坐标索引,获得待检测语音数据的语音端点检测结果;
步骤5.4还包括设定误识别阈值b,误识别阈值b的用于判别单一语音帧是否为误识别:统计标记后的语音段中两段非噪声语音段之间的采样点数量总和,如果两段非噪声语音段之间的采样点数量总和小于误识别阈值b,则将该段语音剔除。
2.根据权利要求1所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤1具体包括:
步骤1.1:收集语音音频数据和噪声音频数据;
步骤1.2:对收集的音频数据执行升采样或降采样操作,统一语音音频数据和噪声音频数据的采样率;
步骤1.3:从收集的音频数据中随机提取若干段语音音频数据和一段噪声音频数据;
步骤1.4:融合提取的语音音频数据和噪声音频数据;
步骤1.5:重复执行若干次步骤1.3-步骤1.4,生成样本音频数据。
3.根据权利要求1所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤2具体包括:
步骤2.1:以预设的单位时间分帧处理样本音频数据,得到待训练语音帧;
步骤2.2:判断待训练语音帧中是否包含语音,将包含语音的待训练语音帧标记为第一类别即待训练非噪声语音帧,将不包含语音的待训练语音帧划分为第二类别即待训练噪声语音帧;
步骤2.3:提取若干个待训练非噪声语音帧作为正样本,提取多个待训练噪声语音帧作为负样本,正样本和负样本共同构成训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数之联科技股份有限公司,未经成都数之联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910917881.6/1.html,转载请声明来源钻瓜专利网。