[发明专利]一种基于深度学习的语音端点检测方法及系统有效
申请号: | 201910917881.6 | 申请日: | 2019-09-26 |
公开(公告)号: | CN110706694B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都数之联科技股份有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/06;G10L15/16;G10L25/78 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 熊曦 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 语音 端点 检测 方法 系统 | ||
本发明公开了一种基于深度学习的语音端点检测方法及系统,包括:利用收集的音频数据生成样本音频数据;分帧处理样本音频数据,划分处理后得到的待训练语音帧为非噪声语音帧和噪声语音帧,获得训练集;利用训练集训练深度神经网络模型,获得训练后的深度神经网络模型;将端点待检测语音数据输入该训练后的模型,输出该语音数据中的所有非噪声语音帧和噪声语音帧;基于非噪声语音帧和噪声语音帧,获得端点待检测语音数据中的非噪声语音段和噪声语音段,提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引为语音端点。本发明解决了传统语音端点检测技术低信噪比识别准确率低、部分方法识别速度慢和语音特征选取困难的问题。
技术领域
本发明涉及语音信号处理领域,具体地,涉及一种基于深度学习的语音端点检测方法及系统。
背景技术
语音是信息交互的重要方式,语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点,是一种运用在语音前端的处理技术,通过语音端点检测算法提取出含有语音的音频数据,为后期声源定位、语音识别、语音编码等任务提供有效的信息。随着人工智能的发展,人们希望通过“语音”实现人机交互,辨别说话人身份及识别具体语音内容,语音端点检测是其关键环节。在通信领域,需要尽可能地降低信号静音段的数据传输效率以保证接受语音信号的质量,此时准确的信号端点检测也是不可少的。另外,国家安全保密工作中的通信线路监控工作中语音端点检测也起着至关重要的作用,在节约资源成本的同时不影响信息检测。
传统的语音端点检测的主要方法包括:(1)基于单一门限或多门限判决的端点检测方法。该类方法主要通过统计检验某种特征参数(短时能量,过零率,信息熵等)来区分噪音和非噪音。例如:基于短时能量的端点检测方法首先将整段语音划分成语音帧,之后计算语音帧的短时能量,最后判断短时能量是否大于既定阈值。大于阈值的语音帧则判定为非噪音,小于阈值的语音帧则判定为噪音。(2)基于统计模型的语音端点检测方法,主要包括以下步骤:接收输入的待检测语音信号;分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理以生成待检测语音信号的第二语音特征信息;根据第二语音特征信息和声学模型获得待检测语音信号的识别结果。
传统的语音端点检测方法存在抗噪性差,特征选取困难的问题。在低信噪比的情况下,语音端点检测效果较差,很难识别语音具体所在位置;语音特征众多,比如短时能量,过零率,信息熵,Mel倒谱系数等,选取的语音特征不同得到的效果也有所不同。如何有针对性的选取语音特征并进行分析也是语音端点检测中的一大难题。
发明内容
本发明针对真实复杂情况下的语音,提供了一种传统信号处理和深度学习相结合的智能语音定位检测的方法及系统,旨在解决当前基于传统语音端点检测技术方法低信噪比识别准确率低、部分方法识别速度慢和语音特征选取困难的问题。
为实现上述发明目的,本发明一方面提供了一种语音端点检测的方法,以解决传统技术中端点检测方法抗燥性差和特征提取困难的技术问题。具体的发明内容如下:
步骤1语音数据增强。
步骤1.1收集语音音频数据和噪声音频数据;其中,音帧可能是包含人说话的声音或者是非人说话的声音;包含人说话的声音的语音帧称为语音,不包含人说话的语音帧称为噪声;
步骤1.2对收集的音频数据执行升采样或降采样操作,统一语音音频数据和噪声音频数据的采样率;
步骤1.3随机提取几段语音音频数据和一段噪声音频数据;
步骤1.4使用音频数据融合的方法融合语音音频数据和噪声音频数据,其具体方法即是在噪声音频数据上的随机位置随机加入语音音频数据;
步骤1.5重复上述步骤1.3-1.4,生成大量的样本音频数据。
步骤2分帧和标记样本音频数据。
步骤2.1以预设的单位时间分帧处理样本音频数据,得到待训练语音帧;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数之联科技股份有限公司,未经成都数之联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910917881.6/2.html,转载请声明来源钻瓜专利网。