[发明专利]基于连续动作学习自动机的全局优化系统及方法在审

申请号：	201710520108.7	申请日：	2017-06-30
公开（公告）号：	CN109214518A	公开（公告）日：	2019-01-15
发明（设计）人：	李生红;葛昊;马颖华;黄德双;江文;狄冲;周之晟;李怡晨	申请（专利权）人：	上海交通大学;携程计算机技术（上海）有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	上海交达专利事务所 31201	代理人：	王毓理;王锡麟
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	环境反馈平滑函数行为选择初始化模块学习自动机更新模块连续动作全局优化一次迭代算法输入输出模块改进参数输入多次迭代更新算法输出模块输入行为选择模块输出引入初始化极值点正确率最小解最优解收敛搜索跳出更新全局
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于连续动作学习自动机(CALA)的全局优化系统及方法，包括：初始化模块、行为选择模块、环境反馈模块、更新模块和输出模块，其中：初始化模块初始化CALA算法的参数，输入行为选择模块进行行为选择，行为通过...环境的...进入环境反馈模块，得到行为对应的环境反馈，得到局部最优解；更新模块根据环境反馈更新算法参数，将更新的参数输入行为选择模块完成一次迭代，并改进平滑函数；将改进的平滑函数引入下一次迭代的环境反馈模块，进行多次迭代，最终得到极值点，将当前的环境反馈输入输出模块，输出...；作为全局极小值输出；本发明设计合理，引入平滑函数并加入斜率分量进行改进，使得CALA更易跳出局部最小解，并使得后续的搜索具有方向性，大大提高了算法的收敛速度和正确率。

技术领域

本发明涉及的是一种学习自动机优化领域的技术，具体是一种基于连续动作学习自动机的全局优化系统及方法。

背景技术

随机函数优化方法，一般利用概率机制描述其求解的迭代过程，区别于确定性函数化方法中的确定性点列，由此显现算法的重要基础便是随机性。此类算法适用范围广，往往可用于解决大规模的连续和离散函数的最优化、组合优化等问题。算法理论上可以保证以概率1收敛到全局最优值，但相对花费的时间也很多。由于学习自动机具有极强的抗干扰能力和全局优化能力等优点，在函数优化方面得到了应用并展示出良好的应用前景。

学习自动机(LA)是模拟生物从出生开始具备很少的先天知识，而不断与随机环境交互的学习过程而建立的。LA通过与环境的不断交互，调整自身决策概率向量，自适应地学习到一个最优的行为，这里的最优行为指的是有着最大奖励概率的行为。学习自动机的功能也就能简单的描述为与环境进行的一系列有反馈的重复的循环交互。

根据动作集的种类，学习自动机分为有限动作学习自动机(FALA)和连续动作学习自动机 (CALA)。FALA的动作集是有限的数，而CALA的动作集是无限的，一般从实数轴中选取一段代表动作。在实际的函数优化过程中，现实的环境往往是多变而且复杂的，因此有限动作的学习自动机在随机环境中的应用远远不如连续动作。

在全局优化问题中，最常见的问题是在找到一个局部最小解后而陷入困境，无法找到全局最优解。因此，全局优化问题的一个重要的问题就是如何能够跳出局部最优解。经典的连续动作集学习自动机算法虽然也可以收敛到最佳的行为，但是存在比较严重的容易陷入局部极小值和抗噪能力比较弱的问题。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于连续动作学习自动机(CALA)的全局优化系统及方法，在CALA算法中引入平滑函数，并对平滑函数进行改进，有利于跳出全局优化函数中的局部最优值，并使得之后的搜索更具有方向性。

本发明是通过以下技术方案实现的：

本发明涉及一种基于连续动作学习自动机的全局优化系统，包括：初始化模块、行为选择模块、环境反馈模块、更新模块和输出模块，其中：初始化模块初始化CALA算法的参数，输入行为选择模块进行行为选择，行为通过路径环境的应用得到反馈然后进入环境反馈模块，得到行为对应的环境反馈；更新模块根据环境反馈更新CALA算法的参数，将更新的参数输入行为选择模块完成一次迭代；当迭代次数达到设定值时，将当前的环境反馈输入输出模块，输出最优的路径信息。

本发明涉及一种基于连续动作学习自动机(CALA)的全局优化方法，首先通过现有的 CALA算法得到局部最优解，根据该局部最优解得到改进的平滑函数；将改进的平滑函数引入现有的CALA算法得到优化的CALA算法，通过优化的CALA算法进行多次迭代，最终得到极值点，作为全局极小值输出。

所述的迭代是指：在CALA算法中引入改进的平滑函数进行一轮迭代得到局部最优解，当本轮局部最优解小于上一轮迭代得到的局部最优解时，将本轮迭代得到的局部最优解设置为局部最优解的点，再进行下一轮迭代，直至当前一轮迭代的局部最优解大于或等于上一轮迭代得到的局部最优解，即上一轮迭代得到的局部最优解为极值点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学;携程计算机技术（上海）有限公司，未经上海交通大学;携程计算机技术（上海）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710520108.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于连续动作学习自动机的全局优化系统及方法在审

专利文献下载