[发明专利]使用规范化的目标输出训练神经网络在审
| 申请号: | 202310387395.4 | 申请日: | 2016-11-11 |
| 公开(公告)号: | CN116468070A | 公开(公告)日: | 2023-07-21 |
| 发明(设计)人: | 豪多·菲利普·哈塞尔特 | 申请(专利权)人: | 渊慧科技有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
| 地址: | 英国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 规范化 目标 输出 训练 神经网络 | ||
1.一种用于在训练数据上训练神经网络以生成规范化的输出的计算机实现的方法,所述规范化的输出能够根据规范化参数的集合映射到未规范化的输出,其中,所述训练数据包括训练项目的序列,并且对于所述序列中的每个训练项目包括相应的目标输出,其中:
所述训练项目是来自代理的一个或多个传感器的输入,并且每个训练项目的所述相应的目标输出是所述代理的信号的预测,
所述方法对于所述序列中的每个训练项目包括:
更新所述规范化参数的当前值以考虑所述训练项目的目标输出;通过根据更新后的规范化参数值对所述训练项目的目标输出进行规范化来确定所述训练项目的规范化的目标输出;使用所述神经网络处理所述训练项目,以根据所述神经网络的主要参数的当前值来生成所述训练项目的规范化的输出;使用所述规范化的目标输出和所述规范化的输出来确定所述训练项目的误差;以及使用所述误差来调节所述神经网络的主要参数的当前值。
2.根据权利要求1所述的方法,其中,所述一个或多个传感器包括多个多模态传感器。
3.根据权利要求1所述的方法,其中,所述神经网络是通过强化学习来训练的。
4.根据权利要求3所述的方法,其中,所述神经网络表示用于上述代理的行为策略。
5.根据权利要求1所述的方法,其中,所述规范化参数包括所述规范化的移位参数和尺度参数。
6.根据权利要求5所述的方法,其中,确定所述规范化的目标输出包括将所述尺度参数的更新后的值和所述移位参数的更新后的值应用于所述目标输出。
7.根据权利要求1所述的方法,其中,更新所述当前规范化参数值以考虑所述训练项目的目标输出包括:更新所述当前规范化参数值,使得直到并且包括所述序列中的所述训练项目的训练项目的规范化的目标输出具有指定分布。
8.根据权利要求1所述的方法,其中,由所述神经网络生成的所述规范化的输出能够根据所述规范化参数和辅助参数的集合被映射到未规范化的输出。
9.根据权利要求8所述的方法,还包括:
更新所述辅助参数的当前值以即使更新了所述规范化参数的当前值也保持所述未规范化的输出和规范化的输出之间的映射。
10.根据权利要求9所述的方法,其中,更新所述辅助参数的当前值以即使更新了所述规范化参数的当前值也保持所述未规范化的输出与规范化的输出之间的映射包括:更新所述辅助参数的当前值以消除更新所述规范化参数的当前值对所述映射的影响。
11.根据权利要求9所述的方法,其中,确定所述误差包括:
根据所述主要参数的当前值来处理所述训练输入以生成初始输出;以及
根据所述辅助参数的更新后的值来对所述初始输出进行规范化。
12.根据权利要求11所述的方法,其中,使用所述误差来调节所述神经网络的参数的当前值包括:
执行神经网络训练技术的迭代以调节所述神经网络的所述主要参数的当前值。
13.根据权利要求12所述的方法,还包括:
调节所述辅助参数的更新后的值以作为执行所述神经网络训练技术的迭代的一部分。
14.根据权利要求12或13所述的方法,其中,所述神经网络训练技术是随机梯度下降(SGD)。
15.一种系统,包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行根据权利要求1至14中的任一项所述的相应方法的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310387395.4/1.html,转载请声明来源钻瓜专利网。





