[发明专利]音频文件生成方法、装置、设备及计算机可读存储介质在审
| 申请号: | 202011111958.X | 申请日: | 2020-10-16 |
| 公开(公告)号: | CN112164379A | 公开(公告)日: | 2021-01-01 |
| 发明(设计)人: | 牛力强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10H1/00 | 分类号: | G10H1/00;G10L13/08 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 刘星雨;张颖玲 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频文件 生成 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种音频文件生成方法,其特征在于,包括:
接收音频文件生成请求,所述音频文件生成请求中包括文本和目标对象;
对所述文本和所述目标对象分别进行特征提取,对应得到所述文本的第一特征向量和所述目标对象的第二特征向量;
对所述第一特征向量和所述第二特征向量进行拼接,形成拼接特征向量;
对所述拼接特征向量进行音频属性特征的预测,得到至少两个具有不同类型的音频属性特征;
根据至少两个所述音频属性特征,生成包含有所述文本且具有所述目标对象的声音特性的音频文件。
2.根据权利要求1所述的方法,其特征在于,所述对所述拼接特征向量进行音频属性特征的预测,得到至少两个具有不同类型的音频属性特征,包括:
采用至少两个解码器对所述拼接特征向量分别进行音频属性特征的预测,对应得到至少两个具有不同类型的所述音频属性特征;其中,每一解码器用于对一种类型的音频属性特征进行预测。
3.根据权利要求1所述的方法,其特征在于,所述对所述文本和所述目标对象分别进行特征提取,对应得到所述文本的第一特征向量和所述目标对象的第二特征向量,包括:
对所述文本依次进行音素转换处理和位置信息嵌入处理,得到所述文本的第一特征向量;
对所述目标对象进行特征嵌入处理,得到用于表征所述目标对象的属性信息的所述第二特征向量。
4.根据权利要求3所述的方法,其特征在于,所述对所述文本依次进行音素转换处理和位置信息嵌入处理,得到所述文本的第一特征向量,包括:
对所述文本中的每一字依次进行所述音素转换处理,得到与所述文本对应的音素序列;
获取所述音素序列中每一音素的位置信息,形成位置序列;
采用所述位置序列,对所述音素序列中的每一音素进行所述位置信息嵌入处理,得到与所述音素序列对应的且用于表征所述文本的内容的所述第一特征向量。
5.根据权利要求4所述的方法,其特征在于,所述采用所述位置序列,对所述音素序列中的每一音素进行所述位置信息嵌入处理,得到与所述音素序列对应的且用于表征所述文本的内容的所述第一特征向量,包括:
在预设嵌入词典中查找所述音素序列中的每一音素对应的音素向量、和所述位置序列中的每一所述位置信息对应的位置向量;
对每一音素的音素向量中的元素、和与所述音素对应的位置信息的位置向量中的对应元素进行求和,得到对每一音素嵌入所述位置信息后的嵌入向量;
根据所述音素序列中的全部音素的所述嵌入向量,确定所述第一特征向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述音素序列中的全部音素的所述嵌入向量,确定所述第一特征向量,包括:
对所述嵌入向量进行至少一次复制,得到多个相同的嵌入向量;
对所述多个相同的嵌入向量进行多维注意力计算,得到多个注意力向量;
对所述多个注意力向量依次进行求和处理和归一化处理,得到所述第一特征向量。
7.根据权利要求2所述的方法,其特征在于,所述至少两个解码器中至少包括音高解码器、能量解码器、节奏解码器和频谱解码器;对应地,所述音频属性特征至少包括音高特征、能量特征、节奏特征和频谱特征;
所述采用至少两个解码器对所述拼接特征向量分别进行音频属性特征的预测,对应得到至少两个具有不同类型的音频属性特征,包括:
采用所述音高解码器对所述拼接特征向量进行音高特征的预测,得到音高特征;
采用所述能量解码器对所述拼接特征向量进行能量特征的预测,得到能量特征;
采用所述节奏解码器对所述拼接特征向量进行节奏特征的预测,得到节奏特征;
采用所述频谱解码器对所述拼接特征向量进行频谱特征的预测,得到频谱特征。
8.根据权利要求7所述的方法,其特征在于,
所述音高解码器、所述能量解码器、所述节奏解码器和所述频谱解码器具有相同的网络结构;且
所述音高解码器、所述能量解码器、所述节奏解码器和所述频谱解码器的网络结构内部的参数不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011111958.X/1.html,转载请声明来源钻瓜专利网。





