[发明专利]音频文件生成方法、装置、设备及计算机可读存储介质在审

申请号：	202011111958.X	申请日：	2020-10-16
公开（公告）号：	CN112164379A	公开（公告）日：	2021-01-01
发明（设计）人：	牛力强	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10H1/00	分类号：	G10H1/00;G10L13/08
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	刘星雨;张颖玲
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频文件生成方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种音频文件生成方法、装置、设备及计算机可读存储介质，涉及人工智能技术领域。方法包括：对接收到的文本和目标对象分别进行特征提取，对应得到文本的第一特征向量和目标对象的第二特征向量；对所述第一特征向量和所述第二特征向量进行拼接，形成拼接特征向量；对所述拼接特征向量进行音频属性特征的预测，得到至少两个具有不同类型的音频属性特征；根据至少两个所述音频属性特征，生成包含有所述文本且具有所述目标对象的声音特性的音频文件。通过本申请实施例，能够提高音频文件生成方法的实际使用范围，提高方法的泛化性。

技术领域

本申请实施例涉及互联网技术领域，涉及但不限于一种音频文件生成方法、装置、设备及计算机可读存储介质。

背景技术

近年来，随着深度学习技术和图形处理器(GPU，Graphics Processing Unit)等硬件计算能力的发展，数字化内容的生成突升为一个热门的研究方向，如音频、图片、视频、虚拟人等。在音频领域，语音合成(TTS，Text to Speech)技术目前可以模拟人类的水平，比如可以进行音乐内容的生成。

相关技术中，音乐内容的生成可以大致分为两类：第一类，纯音乐类，无歌词，主要是生成单个或者多个乐器的一段音乐，如钢琴曲、吉他曲、纯音乐等；第二类，人声音乐类，其中核心是人声部分，唱出歌词的内容，而伴奏部分对应背景音乐。对于第二类人声音乐类，相关技术中的方法是在传统TTS模型基础上加入更多的音乐属性特征(如音高、能量、歌手、节奏等)来生成音乐。

相关技术中的方法需要显式地给定生成音频的多个特征，如此，多个特征均需要从音频中显式提取，人工标注数据成本较高，且只能适用于模型的训练阶段，在实际使用时的预测阶段，由于生成的音频是未知的，因此，无法直接给出准确的音乐属性特征，从而造成实际使用范围有限，相关技术的方法泛化性较差。

发明内容

本申请实施例提供一种音频文件生成方法、装置、设备及计算机可读存储介质，涉及人工智能技术领域。通过对文本和目标对象进行特征提取，并对与文本和目标对象对应的拼接特征向量进行预测，得到至少两个具有不同类型的音频属性特征，并生成音频文件，如此，只需输入文本和目标对象即可生成音频文件，因此能够提高音频文件生成方法的实际使用范围，提高方法的泛化性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种音频文件生成方法，包括：接收音频文件生成请求，所述音频文件生成请求中包括文本和目标对象；对所述文本和所述目标对象分别进行特征提取，对应得到所述文本的第一特征向量和所述目标对象的第二特征向量；对所述第一特征向量和所述第二特征向量进行拼接，形成拼接特征向量；对所述拼接特征向量进行音频属性特征的预测，得到至少两个具有不同类型的音频属性特征；根据至少两个所述音频属性特征，生成包含有所述文本且具有所述目标对象的声音特性的音频文件。

本申请实施例提供一种音频文件生成装置，包括：接收模块，用于接收音频文件生成请求，所述音频文件生成请求中包括文本和目标对象；特征提取模块，用于对所述文本和所述目标对象分别进行特征提取，对应得到所述文本的第一特征向量和所述目标对象的第二特征向量；拼接模块，用于对所述第一特征向量和所述第二特征向量进行拼接，形成拼接特征向量；预测模块，用于对所述拼接特征向量进行音频属性特征的预测，得到至少两个具有不同类型的音频属性特征；生成模块，用于根据至少两个所述音频属性特征，生成包含有所述文本且具有所述目标对象的声音特性的音频文件。

本申请实施例提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；其中，计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器用于执行所述计算机指令，实现上述的网络结构搜索方法。

本申请实施例提供一种音频文件生成设备，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的音频文件生成方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011111958.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种粪便尿液即时取样成像装置及其使用方法
下一篇：一种PCB电路板的分板机构

同类专利

专利分类

G 物理

G10 乐器；声学
G10H 电声乐器；由机电装置或电子发生器产生音调的乐器，或从数据存储器合成音调的乐器
G10H1-00 电声乐器的零部件
G10H1-02 .音调频率控制装置，例如提升或衰减；产生特殊音乐效果的装置，例如颤音或滑音
G10H1-18 .选择电路
G10H1-32 .结构零部件
G10H1-36 .伴奏设备
G10H1-44 .调谐装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]音频文件生成方法、装置、设备及计算机可读存储介质在审

专利文献下载