[发明专利]一种无需原始数据存储的持续性学习生成语音特征的方法有效
申请号: | 202110852843.4 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113299315B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 陶建华;马浩鑫;易江燕 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/03;G10L25/21;G10L25/12 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无需 原始数据 存储 持续性 学习 生成 语音 特征 方法 | ||
本发明提供一种无需原始数据存储的持续性学习生成语音特征的方法,包括:采集音频数据,提取音频声学特征,得到线性倒谱系数特征;应用所述线性倒谱系数特征对深度学习网络模型进行训练,得到源域模型;在源域模型的训练损失函数基础上加入了正则化损失,约束模型参数优化的方向,应用新采集的音频数据对所述源域模型进行模型参数更新,得到目标域模型。
技术领域
本发明涉及语音处理和图像处理领域,具体涉及一种无需原始数据存储的持续性学习生成语音特征的方法。
背景技术
生成语音检测是判别音频为真实人声还是由录音、语音合成、语音转换技术生成的生成语音。
现有的用特定的数据集训练的生成语音鉴别模型对于与训练数据不匹配的未知生成语音检测的能力大大降低,泛化性能较低。
同时,随着语音合成、语音转换技术的不断发展,生成语音手段也层出不穷,然而现有的生成语音检测方案均面临着模型泛化性能不足的问题,对于训练数据集中未知的生成类型,没有一种具有高鲁棒性、良好泛化性的模型可以保证将其检测出来,比如在ASVspoof2019 LA数据集上训练的模型,由于没有见过生成类型,所以在ASVspoof2019 PA数据集上效果大大降低,再比如在由有限语音合成技术进行生成的数据集上训练的模型很难检测出新的合成生成语音。使用现有生成语音数据一次性训练好生成语音鉴别模型并不现实,当有新的语音生成手段出现时,可以将新数据与原有数据混合一起重新训练模型,但是随着数据量的增加,会带来计算和存储资源的线性增长,开销过大;而且由于特殊数据的隐私保护问题,长期存储原有数据可能无法实现;此外对于在线不断更新的生成语音检测模型而言,无法做到联合旧数据重新训练。
针对上述问题,使得模型具有持续性学习新型生成语音的能力显得尤为重要。
为了提升模型对于未知生成语音的鉴别性能,也可考虑模型微调,联合训练,提取更具泛化性的声学特征等等。
采用模型微调,用原有模型在新数据将进行微调会产生“灾难性遗忘”现象,带来在原有数据集上性能的大大降低;联合训练会产生较大的时间、计算资源的开销,在一些特殊情境下,由于隐私保护或者其他涉密原因会导致无法获取原始数据,所以无法联合所有数据一起训练。
针对模型对于未知数据集的检测性能明显降低的问题,目前已有一些相关技术研究:
1.多模型融合方法:针对每个数据集训练一个生成语音鉴别模型,然后将多个模型进行融合,综合打分。
2.双向对抗领域自适应方法:此方法是领域对抗训练的延伸,在网络上加入两个分别针对真实和生成语音的领域鉴别器,采用源域的带标签的数据和目标域无标签数据进行训练,提升对于领域不匹配数据集的性能。
3.提取其他泛化性特征:此方法是从传统信号处理角度,设计前端特征提取器,希望采用更具泛化性的特征,如:扩展的CQCC, CQSPIC系数等。
但是上述研究的存在缺陷在于:多模型融合方法需要新旧数据一同训练,会加大训练成本的开销;双向对抗领域自适应方法只关注在新数据上的性能,而忽视掉了训练后的数据在旧数据集上的效果;提取其他特征也无法保证该特征对所有生成语音类型检测的性能。
连续学习问题则研究如何克服微调所遇到的“灾难性遗忘”问题,即使模型在学习到新任务的同时保证在旧任务上的记忆能力,可以只利用新数据持续不断地更新。
除了上述问题以外,在实际应用中,人们不光需要知道语音的真伪信息,还希望知道具体的生成类型。此时简单的二分类不足以使模型的输出判断具有说服性,所以将原有的真伪二分类改成生成类型多分类更具实际意义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110852843.4/2.html,转载请声明来源钻瓜专利网。