[发明专利]发音特征的提取方法、装置、设备及存储介质在审

申请号：	202111139792.7	申请日：	2021-09-28
公开（公告）号：	CN113921024A	公开（公告）日：	2022-01-11
发明（设计）人：	张旭龙;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L21/013	分类号：	G10L21/013;G10L25/27
代理公司：	北京市京大律师事务所 11321	代理人：	姚维
地址：	518033 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	发音特征提取方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能领域，公开了一种发音特征的提取方法、装置、设备及存储介质，用于提高语音转换过程中话语内容和说话人信息的解耦性，增强语音转换效果。所述发音特征的提取方法包括：接收不同发音者录制的第一原始语音和第二原始语音；基于目标自然风格转移编码器，提取第一原始语音中的初始文本特征，并提取第二原始语音中的初始发音特征；通过预置的目标对比预测编码器，对初始文本特征进行发音特征解耦，得到目标文本特征；对目标文本特征和初始发音特征进行合成，得到初始合成语音；通过目标自然风格转移编码器，对初始合成语音进行发音特征提取，得到目标发音特征。此外，本发明还涉及区块链技术，目标发音特征可存储于区块链节点中。

技术领域

本发明涉及音频转换领域，尤其涉及一种发音特征的提取方法、装置、设备及存储介质。

背景技术

随着短视频的发展，自媒体自制的动画和自拍短视频体量越来越大，许多自媒体人和动画爱好者创作出富有创意和趣味的短视频，当需要配音时，通过语音转换(voiceconversion，VC)工具合成语音，使短视频能够最大程度地发挥创作者的创意。

现有的语音转换工具大多是将语音中的内容信息和音色信息分开的训练，随后固定语音中的内容信息，同时改变说话人信息，就可以实现语音转换的任务，但这种方法存在话语内容和说话人信息解耦性差的技术问题，导致语音转换效果差。

发明内容

本发明提供了一种发音特征的提取方法、装置、设备及存储介质，用于提高语音转换过程中话语内容和说话人信息的解耦性，增强语音转换效果。

本发明第一方面提供了一种发音特征的提取方法，包括：

接收第一原始语音和第二原始语音，所述第一原始语音和所述第二原始语音为不同发音者录制的语音；

基于预置的目标自然风格转移编码器，提取所述第一原始语音中的初始文本特征，以及提取所述第二原始语音中的初始发音特征；

通过预置的目标对比预测编码器，对所述初始文本特征进行发音特征解耦，得到目标文本特征；

对所述目标文本特征和所述初始发音特征进行合成，得到初始合成语音；