[发明专利]机械臂的控制方法、系统、电子设备及存储介质有效
申请号: | 202110281523.8 | 申请日: | 2021-03-16 |
公开(公告)号: | CN113146618B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 陈海波;赖忠远 | 申请(专利权)人: | 深兰科技(上海)有限公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06F3/01;G06N3/04 |
代理公司: | 苏州领跃知识产权代理有限公司 32370 | 代理人: | 王宁 |
地址: | 200336 上海市长宁区威*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机械 控制 方法 系统 电子设备 存储 介质 | ||
1.一种机械臂的控制方法,其特征在于,所述控制方法包括:
通过脑电信号采集设备从用户采集脑电信号;
将所采集到的脑电信号转化为能够被计算机识别的信号,然后对该信号进行预处理以提取特征信号,并且基于预先由强化学习模型进行的学习结果进行特征分类,并且将特征分类结果通过指令发给机械臂;
机械臂根据所述指令进行对应的操作;以及
用户判断机械臂的所述操作是否正确,并且将判断结果反馈至所述强化学习模型以进行训练,并且更新学习结果;
预先由强化学习模型进行的学习结果是通过如下步骤获得的:
通过马尔可夫决策过程对强化学习问题进行建模,用于使代理在与环境的交互过程中获得最大的累积奖励,
基于代理的要求输入奖励信息和代理相对于环境的状态的状态变量,从而使得代理选择适当的操作,以产生相应的奖励值;
所述将判断结果反馈至所述强化学习模型以进行训练包括:将用户进行的判断结果直接从脑电信号中采集并且输入到机械臂的训练环中,产生相对的反馈,并且机械臂在所述反馈的基础上会记录奖励值,然后重复此过程并训练所述机械臂。
2.根据权利要求1所述的控制方法,其特征在于,脑电信号采集设备从用户的采集脑电信号包括:
非侵入式采集,其通过将多个EEG电极片紧贴在用户的头皮的不同位置,用来用户的脑电信号,
侵入式采集,其是通过直接将电极植入到大脑皮层,用来用户的脑电信号,或者
半侵入式采集,其将脑机接口植入到颅腔内,但是在大脑皮层之外。
3.根据权利要求1所述的控制方法,其特征在于,将所采集到的脑电信号转化为能够被计算机识别的信号包括将脑电信号采集设备采集的脑电信号进行放大、滤波、A/D转换。
4.根据权利要求1所述的控制方法,其特征在于,通过如下步骤输出所述指令:脑电信号采集设备采集SSVEP信号,脑电识别分类模块对采集到的SSVEP信号通过预处理后,采用基于多导同步指数的频率识别算法,进行SSVEP的分类识别,并输出控制命令。
5.根据权利要求1所述的控制方法,其特征在于,所述预先由强化学习模型进行的学习包括利用卷积神经网络和循环神经网络对脑电数据进行解码,应用卷积神经网络来表征空间特征,应用循环神经网络中的长短记忆网络、来表征时间特征。
6.根据权利要求1所述的控制方法,其特征在于,训练所述机械臂包括:使用用户的反馈训练奖励预测器,奖励预测器进一步训练机械臂,使得机械臂最大化来自预测器的奖励。
7.一种机械臂的控制系统,其特征在于,所述系统包括:
脑电信号采集设备,其从用户采集脑电信号;
机械臂控制模块,其将所采集到的脑电信号转化为能够被计算机识别的信号,然后对该信号进行预处理以提取特征信号,并且基于预先存储的由强化学习模块中的强化学习模型进行的学习结果进行特征分类,并且将特征分类结果通过指令发给机械臂,使得机械臂根据所述指令进行对应的操作;以及
反馈模块,其使得在所述机械臂进行操作时,用户判断机械臂的所述操作是否正确,并且将判断结果反馈至机械控制模块中的所述强化学习模型以进行训练,并且更新学习结果;
所述强化学习模块通过如下步骤进行强化学习:
通过马尔可夫决策过程对强化学习问题进行建模,用于使机械臂在与环境的交互过程中获得最大的累积奖励,
基于机械臂的要求输入奖励信息和代理相对于环境的状态的状态变量,从而使得机械臂选择适当的操作,以产生相应的奖励值;
所述反馈模块将用户进行的判断结果直接从脑电信号中采集并且输入到机械臂的训练环中,产生相对的反馈,并且机械臂在所述反馈的基础上会记录奖励值,然后重复此过程并训练所述机械臂。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深兰科技(上海)有限公司,未经深兰科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110281523.8/1.html,转载请声明来源钻瓜专利网。