[发明专利]语音转化方法、装置、设备及存储介质在审

申请号：	202111137388.6	申请日：	2021-09-27
公开（公告）号：	CN113889129A	公开（公告）日：	2022-01-04
发明（设计）人：	张旭龙;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L21/013	分类号：	G10L21/013
代理公司：	深圳市力道知识产权代理事务所(普通合伙) 44507	代理人：	张传义
地址：	518057 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音转化方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能技术，提供一种语音转化方法、装置、设备及计算机可读存储介质，该方法包括：获取第一语音；将第一语音输入训练好的语音转化模型的第一编码器，得到第一编码器输出的语言表达特征向量；基于语言表达特征库，根据语言表达特征向量确定目标表达特征向量；将第一语音输入语音转化模型的语音识别子模型，得到语音识别子模型输出的与第一语音对应的文本向量；对目标表达特征向量和文本向量进行向量整合，得到第一整合语音向量；将第一整合语音向量输入语音转化模型的语音生成子模型，得到语音生成子模型输出的第二语音。能够实现对语音的转化，提高转化速率。本申请还涉及区块链技术，语音转化模型可以存储在区块链中。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种语音转化方法、装置、设备及计算机可读存储介质。

背景技术

目前，通过语音合成模型和声音克隆技术，能够将从通过语音合成模型输出的语音转化为特定说话人发出的声音，以满足个性化语音输出的要求，从而达到模拟某个人说话的目的。但在模型的语料训练数据比较少的时候，语音合成模型输出的语音与真实语音相似度不高。并且语音合成模型需要将输入文本数据进入模型，以基于文本生成特定的音频，无法实现实时通过说话人的语音转化为模拟另一个说话人的特定音频，音频的转换效率较慢。

发明内容

本申请的主要目的在于提供一种语音转化方法、装置、设备及计算机可读存储介质，旨在提高语音转化模型的语音转化效率，以及提升语音转化模型生成语音的自然度和真实性。

第一方面，本申请提供一种语音转化方法，所述语音转化方法包括以下步骤：获取第一语音；

将所述第一语音输入训练好的语音转化模型的第一编码器，得到所述第一编码器输出的语音表达特征向量；

基于语言表达特征库，根据所述语言表达特征向量确定目标表达特征向量；

将所述第一语音输入所述语音转化模型的语音识别子模型，得到所述语音识别子模型输出的与所述第一语音对应的文本向量；

对所述目标表达特征向量和所述文本向量进行向量整合，得到第一整合语音向量；

将所述第一整合语音向量输入所述语音转化模型的语音生成子模型，得到所述语音生成子模型输出的第二语音。

第二方面，本申请还提供一种语音转化装置，所述语音转化装置包括：

第一语音获取模块，用于获取第一语音；

语音表达特征向量获取模块，用于将所述第一语音输入训练好的语音转化模型的第一编码器，得到所述第一编码器输出的语音表达特征向量；

目标表达特征向量确定模块，用于基于语言表达特征库，根据所述语言表达特征向量确定目标表达特征向量；