[发明专利]循环神经网络训练优化方法、设备、系统及可读存储介质有效

申请号：	201911141081.6	申请日：	2019-11-20
公开（公告）号：	CN111222628B	公开（公告）日：	2023-09-26
发明（设计）人：	程勇;刘洋;陈天健	申请（专利权）人：	深圳前海微众银行股份有限公司
主分类号：	G06N3/0464	分类号：	G06N3/0464;G06N3/0442;G06N3/084
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	王韬
地址：	518000 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	循环神经网络训练优化方法设备系统可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种循环神经网络训练优化方法、设备、系统及可读存储介质，所述方法包括：接收参与设备发送的RNN输出结果，其中，RNN输出结果为参与设备将上游传递信息，以及参与设备所处理时间步对应的本地训练数据输入对应RNN中得到的；根据RNN输出结果计算得到梯度信息；将梯度信息反向传播给参与设备，供各参与设备根据梯度信息更新RNN的模型参数；将从各参与设备接收到的更新后模型参数进行融合得到全局模型参数，并返回给各参与设备，迭代训练得到训练完成的RNN。本发明通过协调设备协调多个参与设备分别处理不同时间步，分担训练RNN的计算和电量开销，使得在设备计算资源和电量资源有限的场景下也可以进行RNN训练。

技术领域

本发明涉及人工智能领域，尤其涉及一种循环神经网络训练优化方法、设备、系统及可读存储介质。

背景技术

循环神经网络(Recurrent Neural Network，RNN)是一类具有短期记忆能力的神经网络，适合用于处理视频、语音、文本等与时序相关的问题。在RNN中，神经元不但可以接收其他神经元的信息，还可以接收自身的信息，形成具有环路的网络结构。目前，RNN以及深度RNN(例如，stacked LSTM)已经在实践中证明了其强大的功能，特别是在自然语言处理领域被广泛应用。

然而，训练RNN的计算复杂度是非常高的，这是因为RNN有很多时间步(time-step)，每个时间步都对应一个神经网络或者深度神经网络。例如，当总时间步的个数为1024，每个时间步对应的隐藏节点为1024，一共有8层RNN(例如，4个双向的LSTM(bidirectional LSTM)堆积起来)，批量大小为64，那么这个计算量是非常庞大的，在训练的时候，一个LSTM(Long Short-Term Memory，长短期记忆网络)输入层维度即为1x64x1024x1024，还需要重复做8次这样的输入以及计算。如果处理的序列数据是遥感卫星拍摄的四通道图像数据，那么一个LSTM的输入维度就变成了4x64x1024x1024，即计算量又增加了4倍。如果考虑卫星在轨计算或者物联网(Internet of Things，IoT)等应用场景，训练RNN的计算复杂度可能会超过设备的计算能力和电量资源。

现有的解决办法是使用强大的CPU或者TPU硬件资源来训练复杂的RNN模型，但是CPU和TPU的成本和电量消耗都超过了卫星或者IoT设备的承受范围，不能用于卫星在轨计算等应用场景。

发明内容

本发明的主要目的在于提供一种循环神经网络训练优化方法、设备、系统及可读存储介质，旨在解决训练RNN的计算复杂度高，可能会超过设备的计算能力和电量资源，从而无法应用于设备计算能力和电量资源受限的应用场景的问题。

为实现上述目的，本发明提供一种循环神经网络训练优化方法，所述循环神经网络训练优化方法应用于基于联邦学习训练循环神经网络RNN的协调设备，所述协调设备与各参与设备通信连接，各所述参与设备按照各自处理的时间步的先后顺序通信连接，所述循环神经网络训练优化方法包括以下步骤：

接收所述参与设备发送的RNN输出结果，其中，所述RNN输出结果为所述参与设备将上游参与设备传递的上游传递信息，以及所述参与设备所处理时间步对应的本地训练数据输入对应的RNN中得到的，所述上游传递信息为所述上游参与设备将上上游参与设备传递的上上游传递信息，以及所述上游参与设备所处理时间步对应的本地训练数据输入对应的RNN中得到的；

根据所述RNN输出结果计算得到预设损失函数对所述RNN输出结果的梯度信息；

将所述梯度信息反向传播给所述参与设备，以供各所述参与设备根据所述梯度信息计算所述损失函数对RNN模型参数的梯度信息，并根据所述损失函数对RNN模型参数的梯度信息来更新所述RNN的模型参数；

将从各所述参与设备接收到的更新后的模型参数进行融合得到全局模型参数，并将所述全局模型参数发送给各所述参与设备，迭代训练直到检测到满足预设停止条件时得到训练完成的RNN。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司，未经深圳前海微众银行股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911141081.6/2.html，转载请声明来源钻瓜专利网。

上一篇：具有用于低温SCR的氧化部件旁通的排气后处理系统
下一篇：一种用于冲压和密封测试的装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]循环神经网络训练优化方法、设备、系统及可读存储介质有效

专利文献下载