[发明专利]训练元学习网络的装置和方法在审
申请号: | 201910160129.1 | 申请日: | 2019-03-04 |
公开(公告)号: | CN111652364A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 杨铭;石自强;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06F16/9535 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;李彦丽 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 学习 网络 装置 方法 | ||
1.一种训练元学习网络的装置,包括:
获得任务网络实例单元,被配置成针对用于不同任务的多个任务神经网络中的每个任务神经网络,获得该任务神经网络的多个任务网络实例,其中,所述不同任务具有相似性;
获得损失单元,被配置成利用训练数据,分别获得每个任务神经网络的每个任务网络实例的损失;
采样单元,被配置成对所述损失进行采样从而得到采样后的多个损失;
计算泛化损失单元,被配置成基于所述采样后的多个损失,计算反映所述采样后的多个损失的总体损失的泛化损失;
计算梯度单元,被配置成计算所述泛化损失相对于所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的梯度;
学习单元,被配置成将所述梯度分别输入到至少一个元学习网络中的一个元学习网络,从而分别获得与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的更新量,其中,所述元学习网络是对梯度进行学习的神经网络;
第一更新单元,被配置成基于所述更新量,更新与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数;以及
第二更新单元,被配置成在迭代地进行所述获得损失单元、所述采样单元、所述计算泛化损失单元、所述计算梯度单元、所述学习单元以及所述第一更新单元中的处理之后满足预定条件时,基于在满足所述预定条件时的所述泛化损失,使得朝向任务网络实例的损失更小的方向训练所述至少一个元学习网络,从而获得更新后的至少一个元学习网络,
其中,基于通过所述第二更新单元更新后的至少一个元学习网络,迭代地进行所述获得损失单元、所述采样单元、所述计算泛化损失单元、所述计算梯度单元、所述学习单元、所述第一更新单元、以及所述第二更新单元中的处理,直到满足第一迭代终止条件为止。
2.根据权利要求1所述的装置,其中,所述任务神经网络是用于向用户推荐购物网站的物品列表的神经网络推荐系统。
3.根据权利要求1所述的装置,
其中,所述获得任务网络实例单元被配置成通过对所述多个任务神经网络中的每个任务神经网络进行随机初始化,获得每个任务神经网络的所述多个任务网络实例。
4.根据权利要求1所述的装置,
所述采样单元被配置成通过随机选择操作对所述损失进行采样,从而得到所述采样后的多个损失,其中,所述采样后的多个损失的数量是由所述选择操作的保持概率参数控制的。
5.根据权利要求1所述的装置,
其中,所述计算泛化损失单元进一步被配置成对所述采样后的多个损失进行平均,并且将平均后的损失作为所述泛化损失。
6.根据权利要求1所述的装置,
其中,所述计算梯度单元被配置成计算所述泛化损失相对于所述采样后的多个损失中的每个损失对应的任务网络实例中的各网络层的权重参数的梯度。
7.根据权利要求6所述的装置,
其中,所述计算梯度单元被配置成将针对所述多个任务神经网络获得的所有任务网络实例当中,除了与所述采样后的多个损失中的每个损失对应的任务网络实例之外的任务网络实例的各网络层的权重参数的梯度设置为零。
8.根据权利要求7所述的装置,
其中,所述元学习网络基于所述采样后的多个损失中的每个损失对应的任务网络实例的每个网络层的权重参数的上一次更新的状态,输出该层的权重参数的更新量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910160129.1/1.html,转载请声明来源钻瓜专利网。