[发明专利]音频分离方法、装置、电子设备及计算机可读存储介质在审
| 申请号: | 201910678465.5 | 申请日: | 2019-07-25 |
| 公开(公告)号: | CN110473566A | 公开(公告)日: | 2019-11-19 |
| 发明(设计)人: | 高立志 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
| 主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L21/0208;G10L15/26;G10L15/14;G10L15/02;G10L17/00;G10L17/04;G06N20/00 |
| 代理公司: | 44334 深圳市赛恩倍吉知识产权代理有限公司 | 代理人: | 陈敬华;刘丽华<国际申请>=<国际公布> |
| 地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 分离处理 声纹特征 分类结果 语音分类 预设 过滤 计算机可读存储介质 文本 电子设备 数据对应 语音识别 语音文本 语音文件 噪声过滤 准确率 存储 分类 | ||
1.一种音频分离方法,其特征在于,所述方法包括:
获取语音;
对所述语音进行噪声过滤;
从过滤后的语音中提取声纹特征数据,将所述声纹特征数据输入到预设语音分类模型进行分类得到分类结果,根据所述分类结果将相同的声纹特征数据对应的语音进行编码并存储为单独的语音文件而将所述语音进行分离处理;及
对经过分离处理后的语音进行识别以获取所述语音的识别文本。
2.如权利要求1所述的音频分离方法,其特征在于,所述预设语音分类模型训练过程包括:
获取正样本的声纹特征数据及负样本的声纹特征数据,并将正样本的声纹特征数据标注声纹特征类别,以使正样本的声纹特征数据携带声纹特征类别标签;
将所述正样本的声纹特征数据及所述负样本的声纹特征数据随机分成第一预设比例的训练集和第二预设比例的验证集,利用所述训练集训练所述预设语音分类模型,并利用所述验证集验证训练后的所述预设语音分类模型的准确率;
若所述准确率大于或者等于预设准确率时,则结束训练,并以训练后的所述预设语音分类模型作为分类器识别所述声纹特征数据的类别;及
若所述准确率小于预设准确率时,则增加正样本数量及负样本数量以重新训练所述预设语音分类模型直至所述准确率大于或者等于预设准确率。
3.如权利要求1所述的音频分离方法,其特征在于,所述对所述语音进行噪声过滤包括:
从所述语音中选择语音分贝超过第一分贝阈值的语音信息作为环境噪声,并将语音分贝超过第一分贝阈值的所述环境噪声进行删除。
4.如权利要求1所述的音频分离方法,其特征在于,所述对所述语音进行噪声过滤包括:
建立机器学习及深度学习模型;建立声纹识别模型;将获取的所述语音通过所述机器学习及深度学习模型进行学习,对所述语音中的环境噪声进行识别区分;将经过所述机器学习及深度学习模型识别后的语音进行过滤,剔除掉所述语音中不属于人说话音频的环境噪声,得到经过初步筛查的语音;判断经过初步筛查的语音是否达到预设阈值;当确定经过初步筛查的语音达到预设阈值时,将达到预设阈值的语音与所述声纹识别模型进行对比提取,保留与所述声纹识别模型相符合的语音频率及语谱图像,剔除掉与所述声纹识别模型不符合的语音,得到声纹降噪处理的语音。
5.如权利要求1所述的音频分离方法,其特征在于,所述对经过分离处理后的语音进行识别以获取所述语音的识别文本包括:
通过语音识别将经过分离处理后的语音转化为文本,作为初始语音识别文本;及
将所述初始语音识别文本与预设文本数据库进行匹配,得到匹配后的语音识别文本。
6.如权利要求5所述的音频分离方法,其特征在于,所述通过语音识别将经过分离处理后的语音转化为文本包括:
提取所述语音的音频特征,转换为预设长度的声学特征向量;
根据解码算法将所述特征向量解码成词序;
通过HMM音素模型得到对应词序的子词,所述子词为声母和韵母;
根据预设的发音字典将多个子词拼接成文字;及
使用维特比算法解码得到最优序列,得到文本。
7.如权利要求1所述的音频分离方法,其特征在于,
所述声纹特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP、深度特征Deep Feature以及能量规整谱系数PNCC。
8.一种音频分离装置,其特征在于,所述装置包括:
获取模块,用于获取语音;
噪声过滤模块,用于对所述语音进行噪声过滤;
语音分离模块,用于从过滤后的语音中提取声纹特征数据,将所述声纹特征数据输入到预设语音分类模型进行分类得到分类结果,根据所述分类结果将相同的声纹特征数据对应的语音进行编码并存储为单独的语音文件而将所述语音进行分离处理;及
文本识别模块,用于对经过分离处理后的语音进行识别以获取所述语音的识别文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910678465.5/1.html,转载请声明来源钻瓜专利网。





