[发明专利]基于DNN的说话人无关单通道录音分离的方法和系统在审
| 申请号: | 201810576208.6 | 申请日: | 2018-06-06 |
| 公开(公告)号: | CN109036454A | 公开(公告)日: | 2018-12-18 |
| 发明(设计)人: | 徐海青;赵永生;吴立刚;章爱武;陈是同;徐唯耀;秦浩;王文清;郑娟;秦婷;梁翀;浦正国;张天奇;余江斌;韩涛;杨维;张才俊;孙林檀;田诺;潘子春;李葵;李明;张引强;黄影 | 申请(专利权)人: | 安徽继远软件有限公司;国网信息通信产业集团有限公司;国网安徽省电力有限公司信息通信分公司;国家电网有限公司 |
| 主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/21;G10L25/27;G10L25/30;G06N3/04;G06K9/62 |
| 代理公司: | 合肥维可专利代理事务所(普通合伙) 34135 | 代理人: | 吴明华 |
| 地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分词处理 自动学习 词向量 单通道 录音 矩阵 卷积神经网络 组合优化算法 准确度 词语向量 分类结果 输入样本 文本情感 向量编码 能力强 训练集 语料 语句 词语 | ||
本发明公开了一种基于DNN的说话人无关单通道录音分离的方法和系统,属于技术领域,具体步骤包括对训练集的语料进行分词处理,同时对词语进行向量编码,通过分词处理和词语向量编码的过程,用矩阵将一段语句表示出来生成词向量,然后将生成的词向量作为输入样本,输入到卷积神经网络中。本发明提出的组合优化算法在对文本情感特征的自动学习上有着不错的效果,模型的训练速度也大大的提高,分类结果准确度高、自动学习能力强。
技术领域
本发明属于情感技术领域,特别涉及一种基于DNN的说话人无关单通道录音分离的方法和系统。
背景技术
随着客服中心全业务集中运营,录音、工单及电话呼入量逐年递增,显现海量之势,录音人工质量检测、自助录音服务和少数民族语言服务等业务不能完全支撑客服中心“两全三化”的发展。基于客服中心的业务需求,智能客服的概念被随之提出,随着“互联网+”、大数据、深度学习等技术的发展,智能录音技术与大数据、云计算、人工智能结合应用,可以使用海量的数据对录音识别的声学模型、语言模型进行不间断的训练,同时采用内存计算、流计算等技术处理数据转写,将会大大提升智能录音技术识别率,提高录音数据的转写速度。但是目前客服中心的录音工单都是单通道,其录音识别的正确率受到很大影响,需要对单通道的录音分
离技术研究。对于说话人无关的情况,分离技术变得更加困难,同时在进行分离时复杂度也会上升并带来更大时延。
发明内容
本发明所要解决的技术问题是提供一种基于DNN的说话人无关单通道录音分离的方法和系统,本发明使用具有录音对数功率谱作为录音的特征,特征具有全局特性,避免了特征表达不够带来的算法准确率上的损失;在录音的分割和重组的操作上区别CASA的操作使用了DNN算法;并以最小均方误差准则保障DNN的训练集误差不超过标准范围,提高录音识别的正确率。
为实现上述目的,一方面本发明提供以下的技术方案:基于DNN的说话人无关单通道录音分离的方法和系统,其中:具体步骤为:
S1:从数据库中提取录音数据,得到训练集和测试集;
S2:对训练集进行单通道说话人混合特征提取;
S3:通过录音对数功率谱特征训练聚类模型对说话人混合特征类聚,将男性和女性声音分为四个子类,提取特征;
S4:将提取的特征送入说话人DNN检测器,检测判断选择对应的DNN分离器;
S5:DNN分离器基于说话人相关的方式进行单通道录音分离训练,实现话者分离,得到目标信号的特征向量,DNN分离器输出目标语音的对数功率谱特征;
S6:对DNN分离器输出目标语音的对数功率谱特征进行波形重建,产生可测听的语音信号。
S7:测试集对产生的可测听的语音信号结果进行测试。
优选的,所述单通道的说话人混合特征包含男女混合,男男混合以及女女混合三种情况
优选的,所述类聚的具体流程为:提取说话人的i-vector,对每一个说话人根据其所有的语料训练提取说话人特性的100维的i-vector;计算欧式距离矩阵,根据说话人的i-vector计算欧式距离;多维尺度分析,Sammon’s准则下的MDS分析获取2d空间上的分布结果;K-means聚类,K-means算法聚类避免局部最优。
优选的,所述DNN检测器用于检测判断混合录音是男男混合、男女混合和女女混合的哪种混合,所述DNN检测器以混合录音对数功率谱特征为输入以干净录音对数功率谱特征为输出,所述DNN检测器的目标函数为:
其中是目标的对数功率谱特征,表示第t帧估测的说话人集合的对数功率谱,T是迭代参数调优的训练样本的数量。
优选的,DNN检测器的判别式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽继远软件有限公司;国网信息通信产业集团有限公司;国网安徽省电力有限公司信息通信分公司;国家电网有限公司,未经安徽继远软件有限公司;国网信息通信产业集团有限公司;国网安徽省电力有限公司信息通信分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810576208.6/2.html,转载请声明来源钻瓜专利网。





