[发明专利]使用神经网络生成音频有效
| 申请号: | 201780065523.6 | 申请日: | 2017-09-06 |
| 公开(公告)号: | CN109891434B | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | A.G.A.范登奥德;S.E.L.迪尔曼;N.E.卡尔赫布伦纳;K.西蒙延;O.文雅尔斯 | 申请(专利权)人: | 渊慧科技有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
| 地址: | 英国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 神经网络 生成 音频 | ||
1.一种由一个或多个计算机实施的神经网络系统,
其中所述神经网络系统被配置为自回归地生成音频数据的输出序列,所述音频数据的输出序列包括在多个时间步中的每一个处的相应音频样本,并且
其中所述神经网络系统包括:
卷积子网络,包括一个或多个音频处理卷积神经网络层,其中所述卷积子网络被配置为对于多个时间步中的每一个:
接收包括输出序列中所述时间步之前的每个时间步处的相应音频样本的音频数据的当前序列,以及
处理音频数据的当前序列以生成所述时间步的替代表示;和
输出层,其中所述输出层被配置为对于多个时间步中的每一个:
接收所述时间步的替代表示,以及
处理所述时间步的替代表示以生成定义所述时间步的多个可能的音频样本上的分数分布的输出。
2.根据权利要求1所述的神经网络系统,其中,所述神经网络系统还包括:
子系统,被配置为对于多个时间步中的每一个:
根据所述时间步的分数分布,选择输出序列中所述时间步处的音频样本。
3.根据权利要求2所述的神经网络系统,其中选择音频样本包括:
从所述分数分布中采样。
4.根据权利要求2所述的神经网络系统,其中选择音频样本包括:
根据所述分数分布选择具有最高分数的音频样本。
5.根据权利要求1所述的神经网络系统,其中所述多个时间步中的每一个与音频波形中的相应时间对应,并且其中在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的幅度值。
6.根据权利要求1所述的神经网络系统,其中所述多个时间步中的每一个与音频波形中的相应时间对应,并且其中在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的压缩或缩扩表示。
7.根据权利要求1所述的神经网络系统,其中所述音频处理卷积神经网络层是因果卷积神经网络层。
8.根据权利要求1所述的神经网络系统,其中所述音频处理卷积神经网络层包括一个或多个扩张卷积神经网络层。
9.根据权利要求8所述的神经网络系统,其中所述音频处理卷积神经网络层包括扩张卷积神经网络层的多个块,其中每个块包括具有增大的扩张因子的多个扩张卷积神经网络层。
10.根据权利要求1所述的神经网络系统,其中所述音频处理卷积神经网络层中的一个或多个具有门控激活单元。
11.根据权利要求1所述的神经网络系统,其中,在所述多个时间步中的每一个处,基于神经网络输入调节所述替代表示。
12.根据权利要求11所述的神经网络系统,其中所述神经网络输入包括文本段的特征,并且其中所述输出序列表示所述文本段的言语表达。
13.根据权利要求12所述的神经网络系统,其中,所述神经网络输入还包括语调模式值。
14.根据权利要求13所述的神经网络系统,其中,所述神经网络输入包括以下中的一个或多个:说话者标识信息、语言标识信息和说话风格信息。
15.根据权利要求1所述的神经网络系统,其中所述输出序列表示一段音乐。
16.根据权利要求1所述的神经网络系统,其中所述卷积子网络包括残差连接。
17.根据权利要求1所述的神经网络系统,其中所述卷积子网络包括跳跃连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780065523.6/1.html,转载请声明来源钻瓜专利网。





