[发明专利]基于情绪感染和深度强化学习的人群对抗仿真方法在审
| 申请号: | 202010308281.2 | 申请日: | 2020-04-18 |
| 公开(公告)号: | CN111507880A | 公开(公告)日: | 2020-08-07 |
| 发明(设计)人: | 吕培;徐博雅;徐明亮;李超超;王鑫玉;卫慧 | 申请(专利权)人: | 郑州大学 |
| 主分类号: | G06Q50/26 | 分类号: | G06Q50/26;G06F30/20;G06N3/04;G06N3/08 |
| 代理公司: | 广东君龙律师事务所 44470 | 代理人: | 金永刚 |
| 地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 情绪 感染 深度 强化 学习 人群 对抗 仿真 方法 | ||
1.一种基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于,包括以下步骤:
步骤1)、提取所有agent的人数信息;
步骤2)、随机给每个agent赋予ID信息、初始位置、初始情绪值、初始奖励值和初始动作;
步骤3)、通过初始动作计算获得初始平均生理影响;
步骤4)、将人数信息、ID信息、初始位置、初始情绪值、初始奖励值、初始动作和初始平均生理影响输入到神经网络中,获得t时刻agent的动作;
步骤5)、通过t时刻agent的动作计算获得t时刻agent平均生理影响;
步骤6)、通过t时刻agent的动作获得t时刻agent的位置和t时刻agent获得的奖励值;
步骤7)、根据初始情绪值计算获得t时刻agent的情绪值;
步骤8)、将人数信息、ID信息、t时刻agent的位置、t时刻agent的情绪值、t时刻agent的动作、t时刻agent平均生理影响和t时刻agent获得的奖励值输入到神经网络中获得t+1时刻agent的动作;
步骤9)、重复进行步骤5)、步骤6)、步骤7)、步骤8)获得t+2时刻的动作,依次进行迭代训练若干次。
2.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述的所有agent包括有正方agent、反方agent和受害方agent。
3.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:将所述的所有agent分为若干个agent组,agent组中包括有中心个体agenti和中心个体agenti感知范围内的其他agentj。
4.根据权利要求2所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述步骤2)中赋予正方agent的初始情绪值为正数,反方agent的初始情绪值为负数,受害者agent的初始情绪值为零。
5.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述t时刻agent的动作包括有移动动作和攻击动作。
6.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述t时刻agent的情绪值包括有agent受外部环境刺激而产生的感染情绪和agent根据初始动作所产生的行为情绪。
7.根据权利要求3所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:使用one-hot编码表示中心个体agenti感知范围内的t时刻其他agentj的动作。
8.根据权利要求7所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述步骤3)中根据平均场理论将agent组中其他agentj对中心个体agenti的影响转化为一个整体的影响,计算获得t时刻agenti平均生理影响。
9.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述的神经网络为DQN神经网络。
10.根据权利要求9所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述的DQN神经网络采用梯度下降法反向更新DQN神经网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010308281.2/1.html,转载请声明来源钻瓜专利网。





