[发明专利]一种基于强化学习的人机融合自主性边界切换方法及系统在审

申请号：	202010478808.6	申请日：	2020-05-29
公开（公告）号：	CN111753982A	公开（公告）日：	2020-10-09
发明（设计）人：	康宇;张倩倩;王雪峰;游诗艺;吕文君	申请（专利权）人：	中国科学技术大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	合肥天明专利事务所(普通合伙) 34115	代理人：	闫客
地址：	230026***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习人机融合自主边界切换方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于强化学习的人机融合自主性边界切换方法及系统，属于人与机器(人工智能)共享控制技术领域，包括：获取决策信息，该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果；利用深度强化学习网络对决策信息进行处理，预测边界切换结果。本发明将自主性边界处理成动态边界，能够根据不同的问题背景，根据人和AI共享的过程，学习更优的界，实现人与机器共享自主控制效果。

技术领域

本发明涉及人与机器(人工智能)共享控制技术领域，特别涉及一种基于强化学习的人机融合自主性边界切换方法及系统。

背景技术

在传统控制或者如今火热的人工智能控制领域，人充当的是控制系统目标的终极来源的角色。但是人的各种感官等具有感知各种外界环境的能力，可以充当控制系统的传感器；人的大脑具有独特的智能，可以作为系统的控制器以及人的手脚可以作为具有执行力的执行器。因此，人的作用可以不仅仅体现在控制输入上。如果将人考虑到控制系统的闭环中，利用人特有的智能优势，实现与智能体的共享控制，将会在诸多涉及人机系统的共享控制问题中发挥更大的作用。

目前有关人机系统自主性边界的种类包括：绝对边界、相对边界和其他边界。绝对边界指与具体人机系统无关的静态边界，是人机切换过程中不可逾越的确定边界。相对边界是与具体人机系统相关的动态边界。环境不确定性越大，就会造成相对边界越难确定。其他边界如对抗边界，指在对抗环境下需要考虑的自主性边界、网络化人机边界等。

人机系统中人在系统的构建中的地位有三种可能：一是系统的目标、操控等需要人的深度参与，人是整个系统中不可缺少的一个部分，此时“人在回路”(in-the-loop)；二是系统目标由人给出，执行则由具有部分自主性的机器自行进行，此时“人在回路上”(on-the-loop)；第三则是机器可根据感知信息独立地确定目标并给出具体指令，无需人的介入，此时“人在回路外”(out-of-the-loop)。人在回路外的系统不算严格意义的人机系统；人在回路上的系统中人的因素的考虑是可以与机器分离割裂的；而“人在回路”的人机系统的设计和分析则同时包含了人和机器两个因素。

发明内容

本发明的目的在于根据被控环境的要求，进行更自主更合适的边界切换，实现人与机器共享自主控制效果。

为实现以上目的，本发明采用一种基于强化学习的人机融合自主性边界切换方法，包括：

获取决策信息，该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果；

利用深度强化学习网络对决策信息进行处理，预测边界切换结果。

进一步地，所述决策信息其中s_t表示被控对象的环境状态，a_t表示环境状态s_t对应的动作，c_t表示动作a_t的不确定度，h_t表示人工对于状态s_t的判断。

进一步地，还包括：

采用贝叶斯神经网络估计所述动作a_t的不确定度c_t。

进一步地，所述采用贝叶斯神经网络估计所述动作a_t的不确定度c_t，包括：

利用给定数据集训练参数为φ的贝叶斯神经网络；

利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩，并根据一阶矩和二阶矩获得方差作为所述动作a_t的不确定度c_t；

利用训练得到的贝叶斯神经网络对环境状态s_t对应的动作的不确定性进行预测，得到预测分布。