[发明专利]一种基于SVM与强化学习的室内场景识别方法在审
| 申请号: | 201810726023.9 | 申请日: | 2018-07-04 |
| 公开(公告)号: | CN109063739A | 公开(公告)日: | 2018-12-21 |
| 发明(设计)人: | 黄学艺;刘华平;宋彦;袁胜;赵江海 | 申请(专利权)人: | 合肥中科自动控制系统有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
| 代理公司: | 合肥市上嘉专利代理事务所(普通合伙) 34125 | 代理人: | 郭华俊 |
| 地址: | 230000 安徽省合肥市高*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 室内场景 决策网络 强化学习 激光测距传感器 场景识别 分类结果 激光测距 机器人动作 采集数据 神经网络 实验过程 投影信息 信息输入 信息转化 主动识别 轮廓图 运算量 正确率 拟合 采集 场景 融合 分类 重复 决策 网络 | ||
1.一种基于SVM与强化学习的室内场景识别方法,其特征在于,该方法包括以下步骤:
(1)室内场景采集数据,训练一个能够进行室内场景分类的SVM分类器Ns;
(2)进行多次室内场景主动识别实验,在实验过程中,训练一个拟合强化学习值函数的强化学习神经网络,将该网络命名为决策网络NQ,决策网络NQ通过Ns判别分类结果优劣;
(3)完成决策网络NQ的训练后,采用决策网络NQ根据激光测距传感器当前获取的房间激光测距信息,对机器人动作做出决策并执行动作,执行动作后再次采集激光测距传感器信息输入到NQ中,如此重复三次,将三次所得结果进行融合得到最终分类结果。
2.根据权利要求1所述的一种基于SVM与强化学习的室内场景识别方法,其特征在于,所述步骤(1)具体步骤如下:
(1-1)室内场景采集激光雷达数据,命名为数据集D;
(1-2)数据集D中随机挑选Ntrain组样本,记为训练集样本Dtrain={d1,d2,L,dNtrain},以及标签S中与其相对应的训练集标签Strain={s1,s2,L strain};
(1-3)利用训练集{Dtrain,Strain}训练SVM分类器Ns并保存训练参数,核函数选为‘rbf’,核函数核宽设定为1。
3.根据权利要求2所述的一种基于SVM与强化学习的室内场景识别方法,其特征在于,所述步骤(1-1)具体步骤如下:
(1-1-1)每个室内场景设定多个采集点,采集数据,包括数据和标签,标签为房间类别;
(1-1-2)激光雷达测距信息角度为360°,采集方式为定点转向采集,每次转动1°并采集激光雷达信息,采集的信息为360个距离信息,每组数据包含一个含有360个距离信息的数据和一个该距离所对应的房间类型标签。
4.根据权利要求1所述的一种基于SVM与强化学习的室内场景识别方法,其特征在于,所述步骤(2)通过决策网络NQ判断2种动作的优劣,具体步骤如下:
(2-1)场景标签设为S={S1,S2,L,Sk},每个室内场景中选择若干个训练点;
(2-2)设定每点最大训练步数e;
(2-3)在其中一个训练点开始训练决策网络NQ,采集一次激光雷达数据Ht,输入到训练好的Ns中进行预测,预测分类向量记为Tt;
(2-4)将Ht输入到决策网络NQ中,获得所有动作的动作价值Q(q1,q2,L,qn),择其中最大价值对应的动作a执行,动作a包括向左旋转15°,向右旋转15°;
(2-5)执行动作a后再次采集激光雷达数据Ht+1,输入到Ns中进行预测,预测结果记为Tt+1;
(2-6)判断分类结果好坏;
(2-7)更新该状态下该动作对应的动作价值:
其中α∈(0,1)为学习速率,表示新价值覆盖旧价值的程度;γ∈(0,1)为折损因子,代表下一步回报的重要程度;
(2-8)使用随机梯度下降方式反向更新NQ网络参数;
(2-9)判断是否到达该点规定训练步数e,如果达到则至下一点继续训练,回到(2-2),否则重复步骤(2-3)至(2-8);
(2-10)若已处在最后一处训练点,终止训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥中科自动控制系统有限公司,未经合肥中科自动控制系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810726023.9/1.html,转载请声明来源钻瓜专利网。





