[发明专利]一种结合马尔科夫决策过程的动作知识提取方法在审

申请号：	201710173631.7	申请日：	2017-03-22
公开（公告）号：	CN106997488A	公开（公告）日：	2017-08-01
发明（设计）人：	吕强;李兆荣;李欢	申请（专利权）人：	扬州大学
主分类号：	G06N99/00	分类号：	G06N99/00;G06K9/62
代理公司：	南京理工大学专利中心32203	代理人：	唐代盛
地址：	225009 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合马尔科夫决策过程动作知识提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于机器学习技术领域，特别是一种结合马尔科夫决策过程的动作知识提取方法。

背景技术

在机器学习中，许多模型如支持向量机、随机森林、深层神经网络已经被提出并取得了很大的成功，但是在许多实际应用中，这些模型的可实施性比较差。

强化学习是一类特殊的机器学习，通过与所在环境的自主交互来学习决策策略，使得策略收到的长期累积奖赏最大；强化学习与其他机器学习方法的区别在于：不用预先给出训练数据，而是要通过与环境的交互来产生；在管理科学领域，知识提取问题是采用统计学的方法来分析用户的行为并找出特定的规则；在机器学习领域，知识提取问题主要是采用模型后续分析技术。

这两类方法的主要缺点是他们是用全部数据建立模型来提取知识，并不是对单独记录提取其有用的知识。所以在许多应用中，这些模型的可实施性比较差，因为这些模型仅对状态的一个属性值进行修改，这就造成了在实际应用中结果会出现误差，不能准确地给出可行性的建议。

发明内容

本发明所解决的技术问题在于提供一种结合马尔科夫决策过程的动作知识提取方法，以解决现有技术中用全部数据建立模型提取知识和只改变状态的一个属性值，导致结果误差较大的问题；本发明通过强化学习的马尔科夫决策过程实现数据驱动的动作知识提取，实现把机器学习模型的预测结果转化为动作知识的能力。

实现本发明目的的技术解决方案为：

一种结合马尔科夫决策过程的动作知识提取方法，包括如下步骤：

步骤1：训练随机森林模型H；

步骤2：定义动作知识提取问题AKE：针对随机森林模型H，对属性进行分割，定义属性变化、动作，在此基础上定义动作知识提取问题AKE；

步骤3、用马尔科夫决策过程求解AKE优化问题：对任意输入数据，定义马尔科夫决策过程MDP，并定义策略，通过策略迭代更新策略，最后求解得到一个最优策略。

本发明与现有技术相比，其显著优点：

(1)本发明提出了一种结合经典强化学习方法马尔科夫决策过程的方法，为当前动作知识提取领域提供了一种新的方法。

(2)本发明提出的动作知识提取技术有效地改进了在有限时间内找到最优策略的准确率；本发明是基于随机森林模型，随机森林模型是现有的最好分类模型之一，已被广泛用于实际问题中，通过随机森林模型的预处理，可以使得数据有序分类，优化了在后续的马尔科夫决策过程中迭代寻找最优策略的时间。

(3)本发明中动作知识提取定义的动作，能够改变状态的多个属性值，在实际应用中，将会给出准确的可行性建议。

(4)基于马尔科夫决策过程中每步状态完全可以被观测到，迭代寻找最优策略的准确率得以保证；结合马尔科夫决策过程不需要使用全部数据来建立模型的特点，本发明能够针对某个单独记录提取其可用的动作知识，可以通过与环境的交互来自主地了解环境并得到一个更好的策略。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明方法总体流程图。

具体实施方式

本发明的一种结合马尔科夫决策过程的动作知识提取方法，结合机器学习与强化学习，利用马尔科夫决策过程提取动作知识；具体步骤如下：

步骤1：训练随机森林模型H：

给定一个训练数据集，建立一个随机森林模型H；定义训练数据集为{X,Y}，X为输入数据向量集合，Y为输出类别标记集合，通过随机采样和完全分裂建立随机森林模型H，随机森林模型H的预测函数为

其中，为输入向量，y∈Y，y为随机森林模型H在输入向量为的情况下输出的预测分类，c为期望分类目标，d为第d棵决策树，D为随机森林中决策树的总棵数，w_d为第d棵决策树的权重，为第d棵决策树在输入的情况下对应的输出，为指示函数，表示在输入数据向量为的情况下输出的预测分类为c的概率。

步骤2：定义动作知识提取问题(AKE)：针对随机森林模型H，对属性进行分割，定义属性变化、动作，在此基础上定义动作知识提取问题(AKE)。

2.1对属性进行分割：给定一个随机森林模型H，每一个属性x_i(i＝1，…，M)被分割为M个数量的区间。

1)如果属性x_i是分类类型的并且具有n个分类，则属性x_i自然被分割成n个区间，此时M＝n。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于扬州大学，未经扬州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710173631.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N99-00 本小类其他各组中不包括的技术主题

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种结合马尔科夫决策过程的动作知识提取方法在审

专利文献下载