[发明专利]一种深度神经网络的贝叶斯结构学习方法及装置有效
| 申请号: | 201910912494.3 | 申请日: | 2019-09-25 |
| 公开(公告)号: | CN110738242B | 公开(公告)日: | 2021-08-10 |
| 发明(设计)人: | 朱军;邓志杰;张钹 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
| 地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 深度 神经网络 贝叶斯 结构 学习方法 装置 | ||
1.一种深度神经网络的贝叶斯结构学习方法,其特征在于,包括:
构建深度神经网络,所述深度神经网络包括至少一个具有相同内部结构的学习单元,所述学习单元包括预设层数的隐层,且每两个隐层间包括复数种计算单元,定义网络结构为各计算单元的相对权重,并采用参数化的变分分布来建模所述网络结构;
从预设的训练集中随机提取训练子集,并采用重参数化过程采样所述学习单元的网络结构;
根据所述采样的网络结构,计算所述深度神经网络的证据下界ELBO;
若所述证据下界的变化超过预设的损失阈值,则根据预设的优化方法优化所述网络结构和网络权重,并再次从所述训练集中随机提取训练子集以继续对所述学习单元的网络结构进行训练;
若所述证据下界的变化未超过预设的损失阈值,则判定训练结束;
当所述深度神经网络用于图片分类时,则:
使用网络预测结果与标注的交叉熵作为模型训练中的误差进行训练;
测试时,对于一组测试样例,随机从学习得到的网络结构的分布里采样出100个网络结构,基于这些结构,模型给出100组预测概率;
将这些预测概率取均值,得到预测概率;
取预测概率最大的类别作为图片的分类;
当所述深度神经网络用于语义分割时,则:
使用所有像素的预测结果与标注的交叉熵之和作为模型训练中的误差进行训练;
测试时,对于一组测试样例,随机从学习得到的网络结构的分布里采样出100个网络结构,基于这些结构,模型给出100组像素级的预测概率;
将这些预测概率取均值,得到像素级预测概率;
取得到的像素级预测概率在每一个像素上最大的类别作为该像素的分割结果;
当所述深度神经网络用于检测对抗样本时,则:
对于一组对抗样本,随机从学习得到的网络结构分布里采样出30个网络结构;
基于这些结构,模型给出30组预测概率;
将这些预测概率取均值,得到模型最终的预测概率;
计算得到的模型最终的预测概率的熵,作为检测的指标;
如果得到的熵明显大于正常样本的预测对应的熵,则说明检测出对抗样本;
当所述深度神经网络用于检测领域迁移时,则:
对于一组与训练数据采样自不同领域的样本,随机从学习得到的结构分布里采样出100个网络结构;
基于这些结构,模型给出100组预测概率;
将这些预测概率取均值,得到模型最终的预测概率;
计算得到的预测概率的熵,作为检测的指标;
如果中得到的熵明显大于正常样本的预测对应的熵,则说明检测出领域迁移;
所述采用重参数化过程采样所述学习单元的网络结构具体包括:
根据预设的适应性系数,采用重参数化过程采样所述学习单元的网络结构;
在构建学习单元时,对重参数化过程添加预先设置的适应性系数β={β(i,j)}来调节采样的方差;从而得到的具体的重参数化过程为其中∈={∈(i,j)}一组服从各个维度独立的Gumbel变量,τ是正实数表示温度;
具体过程如下:
a.从Gumbel分布里随机采样出一组独立变量∈;
b.将(a)中得到的变量与适应性系数β相乘得到缩放后的变量;
c.将(b)中得到的变量与concrete分布的参数θ相加,然后除以温度系数τ;
d.将(c)中得到的结果输入softmax变换,得到采样的网络结构α=g(θ,β,∈);
所述根据所述采样的网络结构,计算所述深度神经网络的证据下界ELBO具体包括:
根据所述采样的网络结构,计算所述训练子集中经过标注的各样本对应的输出结果,并计算所述深度神经网络的误差,以及所述网络变分分布与预设的先验分布中的对数密度差值;
将所述深度神经网络的误差和所述对数密度差值进行加权求和,以得到所述深度神经网络的证据下界。
2.根据权利要求1所述的深度神经网络的贝叶斯结构学习方法,其特征在于,所述构建深度神经网络,所述深度神经网络包括至少一个具有相同内部结构的学习单元;具体包括:
构建深度神经网络,所述深度神经网络包括至少一个具有相同内部结构的学习单元,在预先确定的学习单元间插入预设的下采样层和/或上采样层;其中,所述下采样层包括:批正则化层、线性整流层、卷积层和池化层,所述上采样层由反卷积层构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910912494.3/1.html,转载请声明来源钻瓜专利网。





