[发明专利]跨域语音鉴伪方法和系统在审
申请号: | 202310594301.0 | 申请日: | 2023-05-25 |
公开(公告)号: | CN116386648A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 龙艳花;李靖;许东星 | 申请(专利权)人: | 上海师范大学;云知声智能科技股份有限公司 |
主分类号: | G10L17/08 | 分类号: | G10L17/08;G10L17/04;G10L17/02 |
代理公司: | 北京格汇专利代理事务所(特殊普通合伙) 16088 | 代理人: | 张伟洋 |
地址: | 200000 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 方法 系统 | ||
1.一种跨域语音鉴伪方法,其特征在于,所述方法包括:
获取真假语音数据,并对所述真假语音数据中的说话人身份和语音分别进行伪造处理,得到伪造语音样本;
对所述真假语音数据和所述伪造语音样本进行特征提取,得到样本语音特征,并将所述样本语音特征输入端到端模型进行语音分类;
根据所述样本语音特征的真伪标签和所述语音分类结果对所述端到端模型进行参数更新,直至所述端到端模型收敛;
将待测语音输入收敛后的所述端到端模型进行语音鉴伪,得到跨域语音鉴伪结果。
2.如权利要求1所述的跨域语音鉴伪方法,其特征在于,所述对所述真假语音数据中的说话人身份和语音分别进行伪造处理,包括:
分别获取所述真假语音数据中各真假语音样本的语速,并对各真假语音样本的语速进行速度扰动,得到语音扰动样本,所述速度扰动用于对各真假语音样本对应的说话人身份进行伪造;
将各真假语音样本与各语音扰动样本进行全局混合,得到所述伪造语音样本,所述全局混合用于对各真假语音样本和各语音扰动样本的语音类别进行伪造。
3.如权利要求1所述的跨域语音鉴伪方法,其特征在于,所述对所述真假语音数据和所述伪造语音样本进行特征提取,包括:
分别对所述真假语音数据和所述伪造语音样本进行采样,得到采样语音,并根据各采样语音的语音时长进行语音截断处理或语音补全处理,得到固定时长语音;
将各固定时长语音输入所述端到端模型中的带通滤波器组进行特征卷积处理,得到所述样本语音特征,所述带通滤波器组包括梅尔刻度初始化后的至少一个带通滤波器。
4.如权利要求1所述的跨域语音鉴伪方法,其特征在于,所述端到端模型包括带通滤波器组、残差模块、通道注意力模块、时域注意力模块、频域注意力模块、池化层和分类器。
5.如权利要求4所述的跨域语音鉴伪方法,其特征在于,所述将所述样本语音特征输入端到端模型进行语音分类,包括:
将所述样本语音特征输入所述残差模块进行残差处理,得到残差特征,并将所述残差特征输入所述通道注意力模块进行通道维度校正,得到全局通道特征;
分别将所述全局通道特征输入所述时域注意力模块和所述频域注意力模块进行时域维度校正和频域维度校正,得到时间维度特征和频域维度特征;
将所述时间维度特征和所述频域维度特征进行融合,得到融合特征,并将所述融合特征输入池化层进行池化处理;
将池化处理结果输入所述分类器进行语音分类,得到所述语音分类结果。
6.如权利要求2所述的跨域语音鉴伪方法,其特征在于,所述将各真假语音样本与各语音扰动样本进行全局混合采用的公式包括:
Xm=λXi+(1-λ)Xj
其中,Xm为所述伪造语音样本,Xi为所述真假语音样本中随机挑选的样本,Xj为所述语音扰动样本中随机挑选的样本,λ为全局混合的比例系数。
7.如权利要求1至6任一所述的跨域语音鉴伪方法,其特征在于,所述根据所述样本语音特征的真伪标签和所述语音分类结果对所述端到端模型进行参数更新采用的损失函数包括:
N是所述真假语音数据和所述伪造语音样本之间的样本数量和,Wj(j=0,1)为真假类别所对应的权重,yij为第i个样本所对应的标签,为所述语音分类结果中,第i个样本经过所述端到端模型语音分类后所对应的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海师范大学;云知声智能科技股份有限公司,未经上海师范大学;云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310594301.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:钢筋混凝土柱的加固装置及加固方法
- 下一篇:一种微电机多功能测试平台