[发明专利]一种基于正向传播的光子神经网络训练方法有效
申请号: | 201911158372.6 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110956259B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 田野;赵洋;王玮;刘胜平;李强;冯俊波;郭进;韩建忠 | 申请(专利权)人: | 联合微电子中心有限责任公司 |
主分类号: | G06N3/067 | 分类号: | G06N3/067;G06N3/08 |
代理公司: | 重庆中之信知识产权代理事务所(普通合伙) 50213 | 代理人: | 李根深 |
地址: | 400030 重庆*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 正向 传播 光子 神经网络 训练 方法 | ||
本发明涉及一种基于正向传播的光子神经网络训练方法,在光子神经网络的输入端设置光源,输出端设置光探测器,仅通过一次正向传播即可实现对整个网络所有参数的并行更新,优于现有电子芯片中训练神经网络所常用的反向传播‑逐层更新网络的方法。本发明仅需在输入端引入光源,在输出端配置光探测器即可实现参数梯度的计算;利用训练和推理都同样是通过正向传播来完成的特征,基于本发明的光子神经网络芯片可以实现训练和推理的同步进行;本发明可以给出额外的线索,帮助避免网络参数的训练陷入某些不正确的局域极值点,从而获得更好的训练效果。
技术领域
本发明涉及光子神经网络训练方法技术领域,尤其涉及一种基于正向传播的光子神经网络训练方法。
背景技术
2017年,麻省理工学院的研究人员提出了一种典型的光子神经网络芯片(参见Y.Shen,et al.“Deep learning with coherent nanophotonic circuits,”Nat.Photonics 11,441(2017).),此芯片运用SVD算法将任意矩阵分解为2个酉矩阵和1个对角矩阵,然后用马赫—曾德干涉仪(Mach-Zehnder interferometer,MZI)组成的阵列模拟这3个矩阵,从而实现了全光任意矩阵相乘计算,为全连接神经网络的计算加速提供了一种光子学的解决思路。同时,将光子回路不擅长的存储、控制、非线性计算等部分放在外接的电路中进行,通过光电集成的方式实现一个理想智能功能的神经网络。然而,这种光子神经网络目前更多是应用在推理端,其训练则严重依赖于传统电子计算机对这一系统的模拟,因此光子神经网络芯片的实际性能受到模拟精度的制约。发展在片上直接训练光子神经网络的技术是提升其性能表现的关键。
人工神经网络的训练实际上对应着一个通过调整不同神经元之间连接权重提升网络输出结果准确性的过程。这一准确性可以通过神经网络模型的预测值f(x)与真实值Y的不一致程度,即损失函数(Loss function)来估量。损失函数的表达有交叉熵损失,平方损失,指数损失,hinge损失等。无论选择何种损失函数,通过训练更新权重使所使用的损失函数不断减小,总是意味着人工神经网络的分析判断与真实结果不断接近。最终损失函数无法通过训练继续减小时,认为人工神经网络的训练完成。
光子神经网络包含若干关联连接的MZI,光从光子神经网络输入并输出,对应着一个人工神经网络分析加载有信息的光信号并给出分析结果的过程(相关具体技术细节可参考论文Y.Shen,et al.“Deep learning with coherent nanophotonic circuits,”Nat.Photonics 11,441(2017))。而从这个意义上来讲,光子神经网络实际上是由一系列MZI的相位参数来描述,训练光子神经网络就是要通过不断的调整MZI的相位参数来降低损失函数,使之达到最小。即,
Min L(θ1,φ1,θ2,φ2......θn,φn)其中n为MZI数量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联合微电子中心有限责任公司,未经联合微电子中心有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911158372.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于拆卸的珐琅橱柜
- 下一篇:一种从选铁尾矿中回收铜铅锌矿物的捕收剂