[发明专利]一种基于双生成器生成对抗网络的语音转换系统研究在审
| 申请号: | 202011435662.3 | 申请日: | 2020-12-10 |
| 公开(公告)号: | CN112466317A | 公开(公告)日: | 2021-03-09 |
| 发明(设计)人: | 魏建国;更太加 | 申请(专利权)人: | 青海民族大学 |
| 主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L25/30 |
| 代理公司: | 北京华智则铭知识产权代理有限公司 11573 | 代理人: | 李树祥 |
| 地址: | 810007*** | 国省代码: | 青海;63 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 双生 成器 生成 对抗 网络 语音 转换 系统 研究 | ||
本发明提供一种基于双生成器生成对抗网络的语音转换系统研究,涉及一种基于双生成器生成对抗网络的语音转换系统,将生成器一分为二各司其职:根据不同的任务,允许两个生成器使用不同的网络结构和不同级别的参数共享,通常有助于更好地学习多任务设置中的每个特定于任务的映射,设计了具有两个生成器的生成对抗网络,更加适合语音转换的任务,在非平行语音转换系统中的表现更加稳定,避免了转换结果模糊的问题。
技术领域
本申请涉及网络安全技术领域,尤其涉及一种基于双生成器生成对抗网络的语音转换系统。
背景技术
语音转换技术是一种对语音信号进行处理的技术,涉及到信号处理和机器学习相关领域。语音转换技术有很多的应用场景,本发明针对的是语音转换领域中最核心的任务,即在不改变语句内容的前提下改变说话人的音色,使之听起来像是另一个人说的。
传统的语音转换方法专注于基于平行语料的转换,平行语料是指语音转换的源和目标说话人需要说同样的语句内容才可以进行模型的训练,这种方法虽然转换的效果还可以接受,但平行数据本身是很难获取的,且获取到的平行数据还需要人工地进行时间对齐才可以应用于语音转换系统的训练过程中,成本极高。
因此,急需一种基于生成对抗网络来设计语音转换系统,基于双生成器生成对抗网络的语音转换系统。
发明内容
本发明的目的在于提供一种基于双生成器生成对抗网络的语音转换系统,将生成器一分为二各司其职:根据不同的任务,允许两个生成器使用不同的网络结构和不同级别的参数共享,通常有助于更好地学习多任务设置中的每个特定于任务的映射。
第一方面,本申请提供一种基于双生成器生成对抗网络的语音转换系统,所述系统包括:一号生成器,用于根据输入的源语音特征和目标说话人标签生成转换后的语音特征;二号生成器,用于根据一号生成器生成的转换后的语音特征和源说话人的标签重新尝试重新得到源语音的特征;
判别器,用于根据输入的语音特征判断该语音特征序列是否是真实语音;
域分类器,用于根据输入的语音特征和说话人标签判断该语音特征序列属于对应说话人的概率,概率越大代表输入的语音特征包含越多的目标说话人特征,转换语音的相似性越好;
所述一号生成器和判别器、域分类器之间构成了对抗训练过程,生成器用于取得更高的分数,分数越高,证明生成的转换语音更加真实,更加符合目标说话人的特性,判别器用于正确地判断真实语音和虚假语音的特征序列,给生成器生成的结果一个尽量低的分数,域分类器用于正确地判断真实语音和转换语音属于对应说话人的概率,给生成器生成的结果一个尽量低的分数。
结合第一方面,在第一方面第一种可能的实现方式中,将真实语音输入进判别器,使判别器输出尽量高的分数,0为最低,1为最高;将真实语音和对应的说话人标签输入进域分类器,使域分类器输出尽量高的概率,概率靠近1;将真实语音和对应的说话人标签输入进一号生成器,使一号生成器输出和原始输入基本相同的结果,该步骤中本身不存在转换过程;将真实语音和对应的说话人标签输入进二号生成器,使二号生成器输出和原始输入基本相同的结果,该步骤中本身不存在还原的过程;将源语音和目标说话人的标签输入进一号生成器,一号生成器输出的是转换后的音频特征序列,一号生成器用于在后续的判别器和域分类器的打分中获得一个尽量高的分数;将转换后的特征序列输入进判别器,使判别器输出一个尽量低的分数,判别器用于正确地判断区分出真实语音特征和转换后的语音特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海民族大学,未经青海民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011435662.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有机肥发酵工艺
- 下一篇:基于区块链和机器学习的跨系统数据共享方法





