[发明专利]一种构建语音端点检测模型的方法及语音端点检测系统有效
| 申请号: | 201910394746.8 | 申请日: | 2019-05-13 |
| 公开(公告)号: | CN110265065B | 公开(公告)日: | 2021-08-03 |
| 发明(设计)人: | 方泽煌;康元勋;冯万健 | 申请(专利权)人: | 厦门亿联网络技术股份有限公司 |
| 主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/30;G10L25/18 |
| 代理公司: | 安徽知问律师事务所 34134 | 代理人: | 闫飞 |
| 地址: | 361000 福建*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 构建 语音 端点 检测 模型 方法 系统 | ||
本发明公开了一种构建语音端点检测模型的方法及语音端点检测系统,属于语音识别技术领域。本发明的一种构建语音端点检测模型的方法,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音端点检测模型。本发明的一种语音端点检测系统,包括采集单元、计算单元、传输单元和终端,采集单元与计算单元电连接,计算单元和终端分别与传输单元连接。本发明克服了现有技术中,语音识别准确性和稳定性不高的不足,提供了一种构建语音端点检测模型的方法及语音端点检测系统,对各类噪声下的语音数据具有较高的识别率,可以应用部署至实时会议通信设备。
技术领域
本发明涉及语音识别领域,更具体地说,涉及一种构建语音端点检测模型的方法及语音端点检测系统。
背景技术
VAD(Voice Activity Detection),又称语音端点检测,是指在噪声环境中检测语音存在与否,通常应用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。传统算法在进行语音活动检测时有两个问题需要注意:
一、背景噪声问题,即如何在较大的背景噪声中检测语音;
二、前后沿剪切问题,即还原语音时,由于从实际讲话开始到检测到语音之间有一定的判断门限和时延,有时语音波形的开始和结束部分会作为非语音被丢掉,还原的语音会出现变化,因此需要在突发语音分组前面或后面增加一个语音分组进行平滑以解决这一问题。
VAD算法的准确性对语音前端算法十分关键,传统的VAD算法通常包括两个部分:特征提取和语音/非语音判决,常用的特征提取分为五类:基于能量、频域、倒普、谐波、和长时信息;语音/非语音判决则根据各自提取的特征的特性进行设计,常用的有根据门限、长时包络、基频等。但是传统VAD算法往往对环境和信噪比依赖性较大,准确性也无法得到保证,十分不利应用于实时会议通信设备中。
近年来,由于深度学习的发展,开始出现了利用深度学习进行VAD检测的技术。相对于传统算法,深度学习的非线性拟合能力极强,而且较为成熟的深度学习模型如RNN、LSTM和GRU等也十分适用于音频信号这种序列型输入数据。但是深度学习的参数规模和计算开销通常较大,直接使用小模型又使得算法的稳定性和效果得不到保障,因此很难应用于实时会议通信设备。
综上所述,如何提高语音识别的准确性及稳定性,是现有技术亟需解决的问题。
发明内容
1.要解决的问题
本发明的目的在于克服现有技术中,语音识别准确性和稳定性不高,很难应用于实时会议通信设备的不足,提供了一种构建语音端点检测模型的方法及语音端点检测系统,对各类噪声下的语音数据具有较高的识别率,可以应用部署至实时会议通信设备。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种构建语音端点检测模型的方法,先采集音频数据并合成混合语音,而后对混合语音进行特征提取得到62维特征,再将62维特征输入至RNN模型进行训练得到语音端点检测模型。
进一步地,具体步骤如下:
步骤一、合成混合语音
先采集纯净语音和噪声,而后将采集的纯净语音和噪声进行语音合成得到混合语音;
步骤二、特征提取
先对混合语音进行加窗分帧处理并进行短时傅里叶变换,再计算每帧的频域对数谱,而后对对数谱进行特征提取得到62维特征;
步骤三、生成语音端点检测模型
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门亿联网络技术股份有限公司,未经厦门亿联网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910394746.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音频爆音检测方法、装置和存储介质
- 下一篇:全像储存装置与其操作方法





