[发明专利]音频分离方法、装置、电子设备及计算机可读存储介质在审

申请号：	201910678465.5	申请日：	2019-07-25
公开（公告）号：	CN110473566A	公开（公告）日：	2019-11-19
发明（设计）人：	高立志	申请（专利权）人：	深圳壹账通智能科技有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/028;G10L21/0208;G10L15/26;G10L15/14;G10L15/02;G10L17/00;G10L17/04;G06N20/00
代理公司：	44334 深圳市赛恩倍吉知识产权代理有限公司	代理人：	陈敬华;刘丽华<国际申请>=<国际公布>
地址：	518052 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音分离处理声纹特征分类结果语音分类预设过滤计算机可读存储介质文本电子设备数据对应语音识别语音文本语音文件噪声过滤准确率存储分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频分离方法，其特征在于，所述方法包括：

获取语音；

对所述语音进行噪声过滤；

从过滤后的语音中提取声纹特征数据，将所述声纹特征数据输入到预设语音分类模型进行分类得到分类结果，根据所述分类结果将相同的声纹特征数据对应的语音进行编码并存储为单独的语音文件而将所述语音进行分离处理；及

对经过分离处理后的语音进行识别以获取所述语音的识别文本。

2.如权利要求1所述的音频分离方法，其特征在于，所述预设语音分类模型训练过程包括：

获取正样本的声纹特征数据及负样本的声纹特征数据，并将正样本的声纹特征数据标注声纹特征类别，以使正样本的声纹特征数据携带声纹特征类别标签；

将所述正样本的声纹特征数据及所述负样本的声纹特征数据随机分成第一预设比例的训练集和第二预设比例的验证集，利用所述训练集训练所述预设语音分类模型，并利用所述验证集验证训练后的所述预设语音分类模型的准确率；

若所述准确率大于或者等于预设准确率时，则结束训练，并以训练后的所述预设语音分类模型作为分类器识别所述声纹特征数据的类别；及

若所述准确率小于预设准确率时，则增加正样本数量及负样本数量以重新训练所述预设语音分类模型直至所述准确率大于或者等于预设准确率。

3.如权利要求1所述的音频分离方法，其特征在于，所述对所述语音进行噪声过滤包括：

从所述语音中选择语音分贝超过第一分贝阈值的语音信息作为环境噪声，并将语音分贝超过第一分贝阈值的所述环境噪声进行删除。

4.如权利要求1所述的音频分离方法，其特征在于，所述对所述语音进行噪声过滤包括：

建立机器学习及深度学习模型；建立声纹识别模型；将获取的所述语音通过所述机器学习及深度学习模型进行学习，对所述语音中的环境噪声进行识别区分；将经过所述机器学习及深度学习模型识别后的语音进行过滤，剔除掉所述语音中不属于人说话音频的环境噪声，得到经过初步筛查的语音；判断经过初步筛查的语音是否达到预设阈值；当确定经过初步筛查的语音达到预设阈值时，将达到预设阈值的语音与所述声纹识别模型进行对比提取，保留与所述声纹识别模型相符合的语音频率及语谱图像，剔除掉与所述声纹识别模型不符合的语音，得到声纹降噪处理的语音。

5.如权利要求1所述的音频分离方法，其特征在于，所述对经过分离处理后的语音进行识别以获取所述语音的识别文本包括：

通过语音识别将经过分离处理后的语音转化为文本，作为初始语音识别文本；及

将所述初始语音识别文本与预设文本数据库进行匹配，得到匹配后的语音识别文本。

6.如权利要求5所述的音频分离方法，其特征在于，所述通过语音识别将经过分离处理后的语音转化为文本包括：

提取所述语音的音频特征，转换为预设长度的声学特征向量；

根据解码算法将所述特征向量解码成词序；

通过HMM音素模型得到对应词序的子词，所述子词为声母和韵母；

根据预设的发音字典将多个子词拼接成文字；及

使用维特比算法解码得到最优序列，得到文本。

7.如权利要求1所述的音频分离方法，其特征在于，

所述声纹特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP、深度特征Deep Feature以及能量规整谱系数PNCC。

8.一种音频分离装置，其特征在于，所述装置包括：