[发明专利]一种话务环境下单通道语音分离方法在审
申请号: | 202111168264.4 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113921033A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 刘奔;余关元;常晋源;何婧;林昱;李殷;周成 | 申请(专利权)人: | 四川新网银行股份有限公司;西南财经大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G10L25/78 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 话务 环境 通道 语音 分离 方法 | ||
1.一种话务环境下单通道语音分离方法,其特征在于,包括以下步骤:
步骤1:根据通话录音材料,以不同的话务员为分组标识进行分组,整合每个话务员的通话录音材料;
步骤2:对每个话务员通话录音材料的音频进行切分;并对切分片段进行活性检测和停顿检测,将音频中无声片段删除,将停顿明显的部分做切开处理;
步骤3:对步骤2中切分的片段做再次切分,并对各个切分后的片段,根据声学特征对不同类型的语音片段进行编码,组成多个矩阵;
步骤4:在步骤3中切分后的片段中根据相似度找出话务员的片段,并对话务员的相似片段进行合并。
2.根据权利要求1所述的一种话务环境下单通道语音分离方法,其特征在于,所述步骤2基于开源的pyannote库对每个话务员通话录音材料的音频进行切分。
3.根据权利要求1到4任意一项权利要求所述的一种话务环境下单通语音分离方法,其特征在于,所述步骤3包括以下步骤:
步骤3.1:以步长为t秒对步骤2中切分的片段再次进行切分;
步骤3.2:对步骤3.1切分后的所有片段进行编码,将每t秒的音频段编码为一个1*512的向量,得到每个音频段对应的矩阵。
4.根据权利要求5所述的一种话务环境下单通道语音分离方法,其特征在于,所述步骤4依据余弦相似度进行质心的选取与更新,并计算矩阵与质心的余弦相似度,依据设定的阈值确定所有片段中属于话务员的语音,并进行合并。
5.根据权利要求6所述的一种话务环境下单通道语音分离方法,其特征在于,所述步骤4包括以下步骤:
步骤4.1:设置相似度阈值k;
步骤4.2:计算Xt和X2t的余弦相似度矩阵,得到对应的矩阵;取出相似度大于阈值的行,并根据矩阵取出Xt和X2t中相似度大于阈值的对应行;
步骤4.3:将X3t、X4t、X5t…Xnt分别和Xt计算余弦相似度矩阵,得的对应的矩阵;取出相似度大于阈值的行,并根据矩阵取出X3t、X4t、X5t…Xnt中相似度大于阈值的对应行;
步骤4.4:将步骤4.2和步骤4.3中取出的行数据压缩为一个向量为1*512维的初始质心;
步骤4.5:将初始质心分别和Xt、X2t、X3t、X4t、X5t…Xnt矩阵计算余弦相似度矩阵,基于阈值分别在每个矩阵中取出相似度大于阈值的行;
步骤4.6:将步骤4.5中取出的行和初始质心组合在一起压缩为一个向量为1*512为的更新质心;
步骤4.7:将更新质心分别和Xt、X2t、X3t、X4t、X5t…Xnt矩阵计算余弦相似度矩阵,基于阈值分别在每个矩阵中取出相似度大于阈值的行;将本步骤中得到的取出的行所对应的语音片段进行合并,得到话务员的音频。
6.根据权利要求5所述的一种话务环境下单通道语音分离方法,其特征在于,所述t等于1秒。
7.根据权利要求7所述的一种话务环境下单通道语音分离方法,其特征在于,所述K等于0.8。
8.根据权利要求7所述的一种话务环境下单通道语音分离方法,其特征在于,所述预先相似度计算公式如下:
式中:A和B均为n维向量,cos(θ)为数值,表示A和B向量之间的相似度大小,取值范围为0-1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司;西南财经大学,未经四川新网银行股份有限公司;西南财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111168264.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:射频开关器件及其制造方法
- 下一篇:制备补锂负极的方法以及补锂负极