[发明专利]一种基于强化学习的宠物自动投食控制系统和方法有效
| 申请号: | 201810242077.8 | 申请日: | 2018-03-22 |
| 公开(公告)号: | CN108575788B | 公开(公告)日: | 2023-07-11 |
| 发明(设计)人: | 傅启明;黄旭;陈建平;傅朝阳;钟珊 | 申请(专利权)人: | 苏州科技大学 |
| 主分类号: | A01K5/02 | 分类号: | A01K5/02;A01K5/01;A01K39/012;A01K39/014 |
| 代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 陈娟 |
| 地址: | 215000 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 宠物 自动 控制系统 方法 | ||
1.一种基于强化学习的宠物自动投食控制系统,包括基体(3),所述基体(3)内设置有用于储存宠物食物的食物腔(4),基体(3)内还设置有与食物腔(4)连通的倾斜的出料通道(13),所述出料通道(13)处设置有用于控制出料通道开闭的闸门机构(11),出料通道(13)的低端外侧设置有接食容器(6),所述接食容器(6)的底部设置有压力传感器(12),还包括定时器(10)和控制器(9),所述定时器(10)、压力传感器(12)和闸门机构(11)分别与控制器(9)连接,
其特征在于,
所述控制器(9)通过以下方法获得最优投食策略:
步骤一:建立宠物投食的模型,具体为:
设定宠物每次的投食量为x,接食容器里剩余量为y,
步骤二:将宠物投食问题建模为一个马尔科夫决策过程模型,并定义其中的状态、
动作、状态转移函数以及立即奖赏函数,
1)状态,用s表示,每天在投食前,控制器通过压力传感器测量一次接食容器内宠物食物的重量,这个重量就是接食容器内剩余食物量,每天分n次定时进行投食操作,
设V={1,2,3…,m}为所测得的接食容器内剩余食物量的集合,其中m为最大投食量,是一个定值,第i次接食容器内剩余食物量为vi,
最大剩余食物量为其中则状态表示为:
s=(v1,v2,…,vm);
2)动作,用a表示,动作表示每次的投食量,设第i个时间步投食量为ri,i∈G,若vi=0,则ri+1=1.25ri,则动作表示为:
a=(r1,r2,…,rm);
3)状态转移函数,用f表示,为了防止投食影响到采样,投食前一定时间采样,第i次采样的状态为si,则状态转移函数表示为:
f:st+1←st;
4)立即奖赏函数,用ρ表示,设最终得到投食量为最佳投食量,接食容器剩余食物离0g越近则奖赏越大,越远则惩罚越大,相应的立即奖赏函数表示为:
步骤三:建立回报值函数模型,设R(s,a)表示在状态s下采用动作a的回报值;值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)],
步骤四:利用Sarsa强化学习算法求解最优策略,
每测一次剩余食物量记为一次情节,每次状态转移即投食一次记为一个时间步t,重复以下步骤直到s收敛:
采取动作a,观察ρ和s′,通过ε-greedy策略从Q根据s′选择动作a′,
Q(s,a)←Q(s,a)+[ρ+γQ(s′,a′)-Q(s,a)];
s←s′;
a←a′;
其中γ为折扣因子,是一个0到1的值,根据实际收敛情况而定,
控制器获得最优投食策略后,根据该投食策略进行投食;
所述闸门机构(11)包括间隔设置的第一闸门(1)和第二闸门(2),第一闸门(1)高于第二闸门(2),且第一闸门(1)和第二闸门(2)之间形成缓冲区域(5),所述第一闸门(1)由第一闸门驱动机构驱动,所述第二闸门(2)由第二闸门驱动机构驱动,第一闸门(1)为上下伸缩开门,通过齿轮带动门上下移动,主要用来决定投食量,第二闸门(2)由机械臂控制,对外开门,第二闸门是为了保证食物腔(4)内食物的密封性,预防因第一闸门(1)被宠物食物卡住而漏气,导致食物不新鲜的情况。
2.如权利要求1所述的一种基于强化学习的宠物自动投食控制系统,其特征在于,所述控制器(9)为移动终端,所述移动终端通过WIFI模块分别与定时器(10)、压力传感器(12)和闸门机构(11)连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州科技大学,未经苏州科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810242077.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有自动清理功能的牲畜喂食槽
- 下一篇:基于计算机的宠物喂养系统





