[发明专利]一种基于强化学习的人机融合自主性边界切换方法及系统在审
| 申请号: | 202010478808.6 | 申请日: | 2020-05-29 |
| 公开(公告)号: | CN111753982A | 公开(公告)日: | 2020-10-09 |
| 发明(设计)人: | 康宇;张倩倩;王雪峰;游诗艺;吕文君 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
| 代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 闫客 |
| 地址: | 230026*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 人机 融合 自主 边界 切换 方法 系统 | ||
1.一种基于强化学习的人机融合自主性边界切换方法,其特征在于,包括:
获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
2.如权利要求1所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述决策信息其中st表示被控对象的环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于环境状态st的判断。
3.如权利要求1所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,还包括:
采用贝叶斯神经网络估计所述动作at的不确定度ct。
4.如权利要求3所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述采用贝叶斯神经网络估计所述动作at的不确定度ct,包括:
利用给定数据集训练参数为φ的贝叶斯神经网络;
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct;
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
5.如权利要求1~4任一项所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括:
S1、获取所述决策信息作为深度强化学习网络的输入;
S2、根据所述决策信息,计算演员网络的输出边界τt;
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
S4、利用公式对评论家网络Qω进行更新,其中表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,表示决策信息,ω表示评论家网络参数,I表示衰减系数,表示值函数的梯度;
S5、利用公式对演员网络πθ进行更新,其中表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,表示值函数的梯度;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
6.一种基于强化学习的人机融合自主性边界切换系统,其特征在于,包括:AI决策模块、人工决策模块、不确定性度量模块、被控对象以及边界切换模块,被控对象分别与AI决策模块和人工决策模块连接,不确定性度量模块与AI决策模块连接,AI决策模块和人工决策模块的输出均与边界切换模块连接,边界切换模块的输出分别与AI决策模块和人工决策模块的输入连接,其中:
AI决策模块根据被控对象当前的环境状态得到当前的环境状态对应的动作;
人工决策模块用于通过人工对被控对象当前的环境状态进行判断,得到判断结果;
不确定性度量模块用于对AI决策模块的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块用于利用深度强化学习网络对AI决策模块、不确定性度量模块和人工决策模块的输出结果进行处理,预测边界切换结果。
7.如权利要求6所述的基于强化学习的人机融合自主性边界切换系统,其特征在于,在所述被控对象为视觉数据时,所述AI决策模块采用卷积神经网络序列;在所述被控对象为序列数据时,所述AI决策模块采用循环神经网络序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010478808.6/1.html,转载请声明来源钻瓜专利网。





