[发明专利]基于强化学习的智能决策方法及系统有效
申请号: | 202110403205.4 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113204916B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 李启娟 | 申请(专利权)人: | 特斯联科技集团有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08 |
代理公司: | 北京春江专利商标代理事务所(普通合伙) 11835 | 代理人: | 向志杰 |
地址: | 100027 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 智能 决策 方法 系统 | ||
1.一种基于强化学习的智能决策系统,其特征在于,所述系统包括:
网络建立模块,用于建立卷积神经网络,所述卷积神经网络的输入层的设定数量的多个输入数据为同一超市内相等面积的设定数量的多个分区域分别部署的多个安保人员数量,所述卷积神经网络的输出层的单个输出数据为所述超市在完成上述部署后预设时间长度范围内的丢失商品的数量;
画面捕获模块,与数据采集模块连接,用于在所述同一超市内相等面积的设定数量的多个分区域内分别执行实时画面采集,以获得多个实时捕获画面,并将所述多个实时捕获画面发送给所述数据采集模块以用于识别所述多个分区域在某一个历史时刻分别部署的多个安保人员数量;
数据采集模块,用于采集固定数量的多份学习数据,每一份学习数据为所述同一超市内相等面积的设定数量的多个分区域在某一个历史时刻分别部署的多个安保人员数量,所述卷积神经网络的输出层的单个输出数据为所述历史时刻后预设时间长度范围内的丢失商品的数量;
强化学习模块,用于将每一份学习数据对应的丢失商品的数量的倒数作为对所述卷积神经网络进行强化学习的奖励信号对所述卷积神经网络进行强化学习操作,以分时逐份完成所述固定数量的多份学习数据对所述卷积神经网络的强化学习操作,以获得强化学习后的卷积神经网络;
数量解析模块,用于采用所述强化学习后的卷积神经网络确定为使得所述强化学习后的卷积神经网络的输出层的单个输出数据即丢失商品的数量最少所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量,以作为所述强化学习后的卷积神经网络的输入层的设定数量的多个输入数据;
其中,所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层;
其中,所述同一超市内每一个分区域的面积固定,所述设定数量的数值越大,所述多个隐含层的数量越多。
2.如权利要求1所述的基于强化学习的智能决策系统,其特征在于,所述系统还包括:
无线通信模块,用于将所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量作为参考派遣数量集合无线发送给远端的超市管理服务器或者超市管理人员的手持终端。
3.如权利要求2所述的基于强化学习的智能决策系统,其特征在于,所述系统还包括:
内容存储模块,用于接收所述强化学习后的卷积神经网络并存储所述强化学习后的卷积神经网络;
其中,所述内容存储模块还用于存储所述设定数量与所述多个隐含层的数量的映射关系。
4.如权利要求3所述的基于强化学习的智能决策系统,其特征在于,所述系统还包括:
现场计时模块,分别与所述系统的各个模块连接,用于为所述各个模块分别提供现场计时服务。
5.如权利要求1-4任一所述的基于强化学习的智能决策系统,其特征在于:
每一份学习数据为所述同一超市内相等面积的设定数量的多个分区域在某一个历史时刻分别部署的多个安保人员数量,所述卷积神经网络的输出层的单个输出数据为所述历史时刻后预设时间长度范围内的丢失商品的数量包括:多份学习数据分别对应的多个历史时刻为多个不同日期的同一设定时刻。
6.如权利要求5所述的基于强化学习的智能决策系统,其特征在于:
所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量的部署时间为当天的所述同一设定时刻。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特斯联科技集团有限公司,未经特斯联科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403205.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于CPS的PHM设计方法
- 下一篇:一种彩棉保暖面料的制备方法