[发明专利]基于深度强化学习的大规模网络瓦解方法、存储装置以及存储介质在审

申请号：	201910019488.5	申请日：	2019-01-09
公开（公告）号：	CN109754085A	公开（公告）日：	2019-05-14
发明（设计）人：	刘忠;范长俊;曾利;孙怡舟;程光权	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06Q50/00
代理公司：	长沙国科天河知识产权代理有限公司 43225	代理人：	邱轶
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	瓦解强化学习网络神经网络模型大规模网络存储装置网络表示训练网络计算机可读存储介质学习强化学习算法扩展性常规网络存储介质广义网络目标网络特征向量问题定义先验知识应用场景拟合映射奖励
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的大规模网络瓦解方法，其特征在于，包括以下步骤：

训练网络表示学习模型，其中，所述网络表示学习模型为网络的节点到与所述节点对应的特征向量映射的神经网络模型；

根据所述网络表示学习模型和强化学习算法训练网络瓦解模型，其中，所述网络瓦解模型为拟合强化学习Q值函数的神经网络模型；

通过所述网络瓦解模型对目标网络进行网络瓦解。

2.根据权利要求1所述的基于深度强化学习的大规模网络瓦解方法，其特征在于，所述训练网络表示学习模型，包括:

向训练网络G(V,E)追加虚拟节点，其中，所述训练网络的所有节点均为所述虚拟节点的连接，V表示所述训练网络的节点集合，E表示所述训练网络的连边集合；

通过下式训练得到所述网络表示学习模型：

其中，ReLU表示神经网络的激活函数，X_v∈R^1×c，表示节点的原始特征，c为节点原始特征的维度，s表示所述虚拟节点，k＝1,...,K，K为整数，N(v)表示节点v的邻居节点集合，分别表示所述训练网络的节点v和虚拟节点s在第k次迭代时的特征向量，h_v和h_s分别表示所述训练网络的节点v和虚拟节点s最终的特征向量，W₁∈R^c×p、W₂∈R^p×p、W₃∈R^p×p表示可学习的权重参数，p为节点最终特征向量的维度。

3.根据权利要求2所述的基于深度强化学习的大规模网络瓦解方法，其特征在于，在根据所述网络表示学习模型和强化学习算法训练网络瓦解模型时，将删除节点或终止删除作为动作，将已经删除的节点序列作为状态，将节点删除前后网络鲁棒性得分变化作为奖励，将累积奖励最大化作为优化目标。

4.根据权利要求3所述的基于深度强化学习的大规模网络瓦解方法，其特征在于，所述根据所述网络表示学习模型和强化学习算法训练网络瓦解模型，包括：

初始化阶段：

初始化经验回放池D，其容量为M，

随机初始化评估网络的可学习参数权重为Φ，

设置目标网络的可学习参数

训练阶段：

生成训练网络并训练得到h_v和h_s，并初始化状态记录为空s₁＝()，其中，状态用h_s表示，动作用h_v表示，

当步数t＝1to T时，对每一步t，在[0,1]均匀分布中产生一个随机数r，如果r＜＝ε，0＜＝ε＜＝1，则从动作空间A中选择一个执行动作a_t～U(A)，否则，a_t＝argmax_aQ(s_t,a；Φ)，其中，表示向量的外积操作，W₄∈R^p×1、W₅∈R^p×1为神经网络的可学习参数，进而执行动作a_t，并记录对应的奖励值r_t，更新状态集s_t+1＝s_t∪a_t，其中，

当t＞＝n时，将四元组(s_t-n,a_t-n,r_t-n,t,s_t)放到所述经验回放池D中，并随机从所述经验回放池D中取出大小为B的一批四元组(s_t-n,a_t-n,r_t-n,t,s_t)，进而设置根据损失函数Loss并利用Adam算法更新评估网络的参数Φ，每隔C步更新目标网络参数其中，

Loss＝Loss_Q+αLoss_embedding，

其中，表示深度强化学习神经网络的损失函数，α∈R⁺，表示权重因子，表示网络表示学习模型的损失函数，

其中，表示n步之后的预测目标值，表示目标网络，表示目标网络的参数值，Q(s_i,a_i；Φ_Q)表示评估网络，B表示从经验回放池D中取出的四元组的批量大小，γ表示未来奖励值重要度的折扣因子，取值为[0,1]，N表示当前网络的节点数，A_m,n表示邻接矩阵坐标(m,n)上对应的值，p_m、p_n分别表示节点m和节点n对应的特征向量，表示网络表示学习模型的可学习参数；

重复上述训练阶段的训练回合，直到训练回合达到设定次数，网络瓦解模型训练结束，得到所述网络瓦解模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910019488.5/1.html，转载请声明来源钻瓜专利网。

上一篇：网络结构的处理方法、装置及相关产品
下一篇：一种基于马尔科夫链的岭回归数值预测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的大规模网络瓦解方法、存储装置以及存储介质在审

专利文献下载