[发明专利]使用神经网络生成音频有效
| 申请号: | 201780065523.6 | 申请日: | 2017-09-06 |
| 公开(公告)号: | CN109891434B | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | A.G.A.范登奥德;S.E.L.迪尔曼;N.E.卡尔赫布伦纳;K.西蒙延;O.文雅尔斯 | 申请(专利权)人: | 渊慧科技有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
| 地址: | 英国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 神经网络 生成 音频 | ||
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于生成包括多个时间步中的每一个处的相应音频样本的音频数据的输出序列。方法之一包括,对于时间步中的每一个:提供音频数据的当前序列作为卷积子网络的输入,其中当前序列包括输出序列中该时间步之前的每个时间步处的相应音频样本,并且其中卷积子网络被配置为处理音频数据的当前序列以生成时间步的替代表示;以及提供时间步的替代表示作为输出层的输入,其中输出层被配置为:处理替代表示以生成定义时间步的多个可能的音频样本上的分数分布的输出。
技术领域
本发明通常涉及提供一种神经网络,并且更具体地涉及使用神经网络处理和生成音频。
背景技术
本说明书涉及使用神经网络处理和生成音频。
神经网络是机器学习模型,它采用一层或多层非线性单元来对于接收的输入预测输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。在网络中,每个隐藏层的输出被用作下一层(即,下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收的输入生成输出。
发明内容
本说明书描述了在一个或多个位置的一个或多个计算机上实施为计算机程序的系统可以如何生成包括多个时间步中的每一个处的相应音频样本的音频数据序列。例如,音频数据序列可以用特定的自然语言或一段音乐来表示语音。
在一个创新方面,由一个或多个计算机实施的神经网络系统被配置为生成包括多个时间步中的每一个处的相应音频样本的音频数据的输出序列。神经网络系统可以包括卷积子网络,该卷积子网络包括一个或多个音频处理卷积神经网络层;和输出层。卷积子网络可以被配置为,对于多个时间步中的每一个:接收包括输出序列中该(当前)时间步之前的每个时间步处的相应音频样本的音频数据的当前序列。卷积子网络还可以被配置为处理音频数据的当前序列,以生成时间(当前)步的替代表示。替代表示因此可以包括数字表示,即数字值的有序集合,其中音频数据的当前序列已经由卷积子网络编码,例如编码当前序列的特征。输出层可以被配置为对于多个时间步中的每一个:接收该时间步的替代表示,并且处理该时间步的替代表示以生成定义该时间步的多个可能的音频样本上的分数分布的输出。
这种系统的许多优点中的一些将在后面描述。系统可以通过从分布中采样来使用分数分布选择当前时间步的样本。输出可以但不是必须对每个可能的音频样本值包括一个分数,例如256个可能值的256个分数。因此,压缩(compress)或缩扩(compand)音频样本值(可以是幅度值),以减少模型输出的数量是有用的。
在一些实施方式中,卷积神经网络层是因果卷积神经网络层,如后面更详细描述的。具体地,音频处理卷积神经网络层可以包括一个或多个扩张因果卷积神经网络层。再次如后面更详细描述的,扩张卷积神经网络层将卷积应用于序列(即,如由来自前一层的输出定义的)中的非相邻值。这可以按数量级增加卷积子网络的接受域(receptive field),同时保持输入(时间)分辨率并维持计算效率。
在一些实施方式中,卷积神经网络层包括多个堆叠的扩张卷积神经网络层的块。每个块可以包括具有增加的扩张因子(dilation)的多个扩张卷积神经网络层。例如,对于每个连续层,扩张因子可以增加因子n,直到每个块内的极限。这可以进一步增加接受域的大小。
在一些实施方式中,卷积神经网络层中的一个或多个可以具有门控激活单元(gated activation unit)。例如,由层实施的卷积之后的修正线性(rectified linear)或其他单元可以被门控激活单元代替。在门控激活单元中,输出可以是两个(因果)卷积的组合,即主卷积和门卷积。卷积可以各自被应用于来自前一层的一些或全部相同的输出。该组合可以包含应用于门卷积的非线性激活函数,例如,诸如sigmoid的具有(0,1)范围的激活。然后,这可以乘以来自主卷积的值;非线性激活函数可以但不需要应用于主卷积。这种方法可以帮助捕捉数据中更复杂的结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780065523.6/2.html,转载请声明来源钻瓜专利网。





