[发明专利]一种噪声提取方法、装置、设备和存储介质在审
申请号: | 202011131906.9 | 申请日: | 2020-10-21 |
公开(公告)号: | CN112420022A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 叶帅帅;胡新辉;徐欣康 | 申请(专利权)人: | 浙江同花顺智能科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/04;G10L25/03 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 310023 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 噪声 提取 方法 装置 设备 存储 介质 | ||
本发明公开了一种噪声提取方法、装置、设备和存储介质。所述方法包括:获取语音数据中各语音帧的声学特征;将所述声学特征输入第一语音识别模型,获得各语音帧的第一类别标签;将所述声学特征输入第二语音识别模型,获得各语音帧的音素标签;根据所述音素标签确定各语音帧的第二类别标签;将所述第一类别标签和所述第二类别标签进行融合,获得各语音帧的目标标签;根据所述目标标签确定噪声段,并提取所述噪声段。该方法通过将两个神经网络的识别结果进行融合获取语音数据中的噪声,可以提高噪声提取的准确性。
技术领域
本发明实施例涉及语音技术领域,尤其涉及一种噪声提取方法、装置、设备和存储介质。
背景技术
语音技术作为人工智能(Artificial Intelligence,AI)的一个重要分支,在人机交互中扮演非常重要的角色。为了提升语音识别、声纹识别等语音技术在实际语音应用系统中的抗噪性能以及鲁棒性,使用噪声语料对训练语料进行增强是一种最重要、最常用的技术手段。
语音技术在实际使用过程中,大部分使用的都是开源的噪声数据集,和实际使用场景噪声匹配度不高,导致语音识别、声纹识别等语音技术的效果不尽人意。为了进一步提升语音技术在实际场景中的性能,关键是需要利用实际应用场景下的环境噪声数据进行数据增强,提升训练数据和测试环境的匹配程度。
现有技术中是通过基于传统的语音活动检测(Voice Activity Detection,VAD)的结果进行噪声提取,但是这种方法在检测低能量的语音和高能量的噪声的时候往往会误判,导致提取出来的噪声还会包含有语音片段。
因此,如何对实际环境语音中的噪声进行有效提取是当前亟待解决的技术问题。
发明内容
本发明实施例提供了一种噪声提取方法、装置、设备和存储介质,利用该方法,能够更加准确的提取实际环境语音中的噪声段。
第一方面,本发明实施例提供了一种噪声提取方法,包括:
获取语音数据中各语音帧的声学特征;
将所述声学特征输入第一语音识别模型,获得各语音帧的第一类别标签;
将所述声学特征输入第二语音识别模型,获得各语音帧的音素标签;
根据所述音素标签确定各语音帧的第二类别标签;
将所述第一类别标签和所述第二类别标签进行融合,获得各语音帧的目标标签;
根据所述目标标签确定噪声段,并提取所述噪声段。
第二方面,本发明实施例还提供了一种噪声提取装置,包括:
声学特征获取模块,用于获取语音数据中各语音帧的声学特征;
第一类别标签获取模块,用于将所述声学特征输入第一语音识别模型,获得各语音帧的第一类别标签;
音素标签获取模块,用于将所述声学特征输入第二语音识别模型,获得各语音帧的音素标签;
第二类别标签确定模块,用于根据所述音素标签确定各语音帧的第二类别标签;
标签融合模块,用于将所述第一类别标签和所述第二类别标签进行融合,获得各语音帧的目标标签;
噪声段提取模块,用于根据所述目标标签确定噪声段,并提取所述噪声段。
第三方面,本发明实施例还提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例中所述的噪声提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江同花顺智能科技有限公司,未经浙江同花顺智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011131906.9/2.html,转载请声明来源钻瓜专利网。