[发明专利]两轮自平衡车的机器学习控制方法有效

申请号：	201710343873.6	申请日：	2017-05-16
公开（公告）号：	CN107065561B	公开（公告）日：	2019-11-22
发明（设计）人：	夏俐;赵千川;赵明国	申请（专利权）人：	清华大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	11201 北京清亦华知识产权代理事务所(普通合伙)	代理人：	张润<国际申请>=<国际公布>=<进入国
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	状态量平衡车控制信号行为指标控制驱动电机报酬机器学习评价函数趋于平衡驱动电机先验知识自平衡车自适应自学习预设观测返回灵活概率更新应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种两轮自平衡车的机器学习控制方法，包括：S1：获取平衡车当前的状态量，所述状态量包括倾角和角速度；S2：根据最优行为的概率、当前状态下的状态行为指标和所述当前的状态量得到驱动电机的控制信号；S3：根据所述控制信号控制驱动电机运行，使所述平衡车趋于平衡，并采用预设评价函数对所述平衡车的状态量改变进行评价得到报酬评价值；S4：根据所述报酬评价值更新当前状态下的状态行为指标；S5：观测并更新所述平衡车的状态量，并返回步骤S1。本发明具有如下优点：无需模型的先验知识，具有自学习、自适应的优点，应用灵活。

技术领域

本发明属于机器人与信息技术交叉领域，具体涉及一种两轮自平衡车的机器学习控制方法。

背景技术

自平衡车是近年来出现的一种个人便捷交通工具，传统平衡车的控制都是基于经典PID控制方法。传统的PID控制方法需要具备一定的先验知识，才能实现对平衡车的自动控制，导致应用不灵活。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的目的在于提出一种两轮自平衡车的机器学习控制方法，无需模型的先验知识，具有自学习、自适应的优点，应用灵活。

为了实现上述目的，本发明的实施例公开了一种两轮自平衡车的机器学习控制方法，包括以下步骤：S1：获取平衡车当前的状态量，所述状态量包括倾角和角速度；S2：根据最优行为的概率、当前状态下的状态行为指标和所述当前的状态量得到驱动电机的控制信号；S3：根据所述控制信号控制驱动电机运行，使所述平衡车趋于平衡，并采用预设评价函数对所述平衡车的状态量改变进行评价得到报酬评价值；S4：根据所述报酬评价值更新当前状态下的状态行为指标；S5：观测并更新所述平衡车的状态量，并返回步骤S1。

进一步地，步骤S2进一步包括：根据以下公式并以概率∈从所有可能的a取值域中随机选择行为a：

a＝arg max_a′{Q(s,a′)}

其中，s为当前的状态量，θ为当前时刻平衡车的倾角，为当前时刻平衡车倾角的角速度，0<∈<1，a′为所述驱动电机的力矩取值。

进一步地，采用以下公式得到所述报酬评价值：

其中c₁和c₂为正常数，r(s,a)为所述报酬评价值。

进一步地，采用以下公式更新所述状态行为指标：

Q(s,a)←Q(s,a)+α[r(s,a)+γmax_a'Q(s',a')-Q(s,a)]

其中，Q(s,a)是当前状态下的状态行为指标，γ是折扣因子且0<γ<1，α是一个惯性因子常数。

进一步地，利用陀螺仪测量得到所述平衡车的倾角和角速度。

本发明实施例的两轮自平衡车的机器学习控制方法，与现有技术相比具有如下优点：

1、本发明的控制方法无需知道被控对象平衡车的物理模型和先验知识，学习得到的控制策略能够自适应被控对象的变化，当被控对象、运行环境发生较大变化时，无需像传统PID控制需要调整参数，本发明能够通过自学习逐渐习得新的最优控制律；

2、本发明的学习算法是在线学习算法，可以在实际运行中不断进行策略更新，进而逐渐改进控制效果；