[发明专利]基于混合噪声场景下的精度可控语音端点判别技术在审
申请号: | 201910746373.6 | 申请日: | 2019-08-14 |
公开(公告)号: | CN112447190A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 王镇;刘波;朱文涛;于华振;范虎;郭世晟 | 申请(专利权)人: | 南京约顿海姆电子科技有限公司 |
主分类号: | G10L25/84 | 分类号: | G10L25/84;G10L25/78;G10L15/16;G10L15/04;G06N3/08;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京市江北新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 噪声 场景 精度 可控 语音 端点 判别 技术 | ||
本发明公开了基于混合噪声场景下的精度可控语音端点判别技术,是基于BCNN神经网络模型以及BWN神经网络模型的一种优化技术,包括语音信号采集模块、神经网络运算模块、特征提取模块、噪声检测模块、可配置N比特数据量化模块、神经网络参数预处理模块。其特征在于:可根据环境信噪比大小动态调整各级网络运算参数。其优势在于:通过各模块动态协同配合,拥有比BWN更小的硬件资源占用率,同时在低信噪比语音端点检测精度显著高于BCNN网络。在多噪声环境,是一种能够在保证一定的识别精度情况下,实现低功耗、低延时、快速及动态可配置的语音端点检测技术。
技术领域
本发明涉及一种基于混合噪声场景下的精度可控语音端点判别技术,属于人工智能神经网络技术领域。
背景技术
近些年,深度神经网络已经成为人工智能范畴中一个炙手可热的发展方向,这类新技术的革新也使得语音识别技术得到了很好的发展。通常,语音端点检测技术在语音信号识别处理中起关键作用,尤其是在后续语音关键词识别技术中,仅利用前项语音端点检测到的语音片段进行处理可大大减小设备硬件开销,同时满足用户高精度的需求。
传统语音端点检测技术多为双门限法、方差法以及谱熵法,电路实现时不仅占用了大量的硬件资源,在低信噪比环境下普遍存在低识别精度、延迟高、速度慢的特点。基于神经网络的语音端点检测技术能很好的克服传统算法低精度、高延迟的特点,因此近些年该项技术得到了很好的发展。
但传统的CNN和DNN神经网络任存在很大的问题,主要是由于在网络结构中存在大量的乘法操作,为满足高精度需求必然要牺牲较多的硬件资源,同时网络层间的数据量化也存在问题,这些问题导致在实际硬件电路实现有一定的困难,成为该技术发展的一个重要瓶颈。
BCNN二值化神经网络以及BWN权重二值化网络的提出则为解决上述问题提供了较好的方案,但两者均存在各自的不足。BCNN二值化神经网络很好的避免了在神经网络层中大乘法操作,极大的降低了硬件开销和功耗,但是该网络在低信噪比环境下识别精度有明显下降,无法满足高精度要求;BWN权重二值化网络满足了低信噪比下的精度要求,但是网络层中并没有减少乘法器个数,在功耗下降方面并没有BCNN二值化神经网络那么明显。
当前,如何有效的优化基于神经网络的语音端点技术已成为难点所在。
发明内容
发明目的:为了更好的与硬件资源兼容以及解决当前语音端点检测技术中存在的高延迟、低精度、高能耗问题,本发明提出一种面向多噪声场景的语音端点检测技术,可大大减少传统神经网络占用大量硬件资源问题,同时可根据环境噪声大小动态调整网络运算参数,在低信噪比环境下实现高精度识别效果。
技术方案:基于混合噪声场景下的精度可控语音端点判别技术,动态可配置的对多种噪声环境下实现对连续语音端点的识别处理。本发明的特点是在精度可控范围内,更改了前项语音特征提取的滤波器结构,实时对网络运算参数的量化处理,大大减少了乘法硬件单元结构,在最优情况下仅仅需要加法单元进行运算操作。
本发明核心模块为特征提取模块、底噪声检测模块、可配置N比特数据量化模块以及神经网络参数预处理模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京约顿海姆电子科技有限公司,未经南京约顿海姆电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910746373.6/2.html,转载请声明来源钻瓜专利网。