[发明专利]支持听不见的水印的文本到语音框架在审
| 申请号: | 202010540510.3 | 申请日: | 2020-06-15 |
| 公开(公告)号: | CN112767913A | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 平伟;仲震宇;程越强;李幸;韦韬 | 申请(专利权)人: | 百度(美国)有限责任公司 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L19/018;G10L25/30 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
| 地址: | 美国加利福尼亚*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 支持 听不见 水印 文本 语音 框架 | ||
根据各种实施例,端到端TTS框架可以将水印过程集成到TTS框架的训练中,这使得水印能够在TTS框架生成的合成的/克隆的音频段内是察觉不到的。以这种方式添加的水印在统计上是不可检测的,以防止经授权的去除。根据训练TTS框架的示例性方法,TTS框架中的TTS神经网络模型和水印神经网络模式以端对端的方式被训练,其中水印是TTS框架的优化过程的部分。在训练期间,基于训练数据调整TTS神经网络模型的神经元值,以准备用于在将由TTS框架生成的合成的音频段中添加水印的一个或多个空间。响应于TTS神经网络模型中的神经元值调整,相应地调整水印神经网络模型的神经元值,以将水印添加到一个或多个准备的空间。
技术领域
本公开的实施例一般涉及基于神经网络的语音合成。更特别地,本公开的实施例涉及用于添加听不见的水印的文本到语音(text to speech,TTS)框架。
背景技术
基于神经网络的语音合成(也称为文本到语音)已经获得了类似人类的高保真语音,并且已经在单个文本到语音(TTS)模型中成功地产生了不同的声音。由于在由这样的模型产生的合成的声音和真实的人类声音之间缺乏区别,模型可能被用于恶意目的,例如合成仇恨言论。
一些公司已经使用水印技术以验证合成的音频是否由特别的TTS模型生成,以防止恶意声音克隆,并加强他们的版权。然而,在现有的解决方案下,水印通常作为合成的音频样本的后处理的部分而被添加,这可以容易地被绕过或伪造。此外,水印通常表示合成的音频样本的额外的信号/噪声,这使得水印对用户不友好。
发明内容
在第一方面中,提供一种训练文本到语音(TTS)框架的计算机实现的方法,所述方法包括:
在TTS框架处接收用于训练所述TTS框架以生成具有水印的合成的音频段的一组训练数据,其中所述TTS框架包括TTS神经网络模型和水印神经网络模型;
调整所述TTS神经网络模型的神经元值,以在由所述TTS框架生成的合成的音频段中准备一个或多个空间,用于添加所述水印;以及
调整所述水印神经网络模型的神经元值以将所述水印添加到一个或多个准备的空间。
在第二方面中,提供一种验证加水印的音频段的计算机实现的方法,包括:
基于专有信息,使用基于所述专有信息的神经网络模型从加水印的音频段获得原始音频段,其中所述神经网络模型是用于生成所述加水印的音频段的合成组件的部分;
基于所述加水印的音频段与所述原始音频段之间的比较,获得嵌入所述加水印的音频段中的实际的水印;以及
通过将所述实际的水印与用于训练所述合成组件的预定的水印进行比较确定所述加水印的音频段是否由所述合成组件生成。
在第三方面中,提供一种非暂时性机器可读介质,具有存储在其中的指令,所述指令在由处理器执行时使得所述处理器执行如第一方面所述的方法或者如第二方面所述的方法。
在第四方面中,提供一种数据处理系统,包括:
一个或多个处理器;以及
非暂时性计算机可读介质,包括一个或多个指令集,所述一个或多个指令集在由所述一个或多个处理器中的至少一个执行时,使得如第一方面所述的方法的步骤被执行,或者使得如第二方面所述的方法的步骤被执行。
根据本公开的实施例,可以将水印处理集成到TTS框架的训练中,这使得水印能够在TTS框架生成的合成的/克隆的音频段内是察觉不到的。以这种方式添加的水印在统计上是不可检测的,以防止经授权的去除。
附图说明
本公开的实施例通过示例的方式示出并且不限于附图中的图,在附图中相同的附图标记表示相似的元件。
图1示出根据实施例的示例文本到语音(TTS)框架。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010540510.3/2.html,转载请声明来源钻瓜专利网。





