[发明专利]策略网络训练方法、胰岛素输注方案生成方法及电子设备在审
申请号: | 202111483733.1 | 申请日: | 2021-12-07 |
公开(公告)号: | CN114300090A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 姜京池;王勃然;刘劼;关毅;于雪卉 | 申请(专利权)人: | 姜京池 |
主分类号: | G16H20/17 | 分类号: | G16H20/17;G06N3/04;G06N3/08 |
代理公司: | 北京隆源天恒知识产权代理有限公司 11473 | 代理人: | 闫冬 |
地址: | 154005 黑龙江省*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 策略 网络 训练 方法 胰岛素 方案 生成 电子设备 | ||
1.一种策略网络训练方法,其特征在于,包括:
获取步骤,获取当前时刻任一虚拟用户的当前血糖状态;
方案生成步骤,根据预先建立的策略网络和所述当前血糖状态生成当前时刻的胰岛素输注方案;
获取根据所述胰岛素输注方案输注胰岛素后,所述虚拟用户的下一血糖状态,根据所述下一血糖状态确定所述胰岛素输注方案的瞬时奖励;
将所述当前血糖状态、所述胰岛素输注方案、所述下一血糖状态和所述瞬时奖励作为一个交互数据,存入经验回放池中;
从所述经验回放池中提取所述交互数据,根据所述交互数据采用元强化学习算法训练所述策略网络,获得训练后的策略网络;
以所述下一血糖状态,结合所述训练后的策略网络迭代执行所述方案生成步骤多次,获得与所述虚拟用户对应的多个交互数据;
返回执行所述获取步骤,迭代训练所述策略网络,直至所述策略网络满足预设规则,获得训练好的策略网络。
2.根据权利要求1所述的策略网络训练方法,其特征在于,所述根据所述交互数据采用元强化学习算法训练所述策略网络包括:
对于任一所述虚拟用户,获取所述虚拟用户的先验知识和与所述虚拟用户对应的所述交互数据中的同策略数据;
根据所述先验知识和所述同策略数据确定所述虚拟用户的表示向量;
获取与所述虚拟用户对应的所述交互数据中的异策略数据,根据所述异策略数据和所述表示向量,采用软参与者-评价者算法训练所述策略网络。
3.根据权利要求2所述的策略网络训练方法,其特征在于,所述根据所述先验知识和所述同策略数据确定所述虚拟用户的表示向量包括:
通过采样器对所述同策略数据进行采样,获得多个上下文数据;
将所述先验知识分别和各个所述上下文数据结合输入概率编码器,确定所述虚拟用户的表示向量;
其中,所述概率编码器对所述先验知识和各个所述上下文数据进行编码,并将各个编码结果分别输入预设的神经网络,确定各个所述编码结果的均值和方差,各个所述编码结果的所述均值和所述方差分别形成一个高斯分布;根据所有所述高斯分布确定所述虚拟用户的表示向量。
4.根据权利要求3所述的策略网络训练方法,其特征在于,所述软参与者-评价者算法中Q网络的损失函数采用第一公式表示,所述第一公式包括:
其中,LQ表示Q网络的损失函数,(o,a,r,o′)表示一个异策略数据,B表示所述经验回放池,(o,a,r,o′)~B表示(o,a,r,o′)从B中采样,z表示所述虚拟用户的所述表示向量,qφ(z|c,P)表示所述概率编码器,z~qφ(z|c,P)表示z从qφ(z|c,P)中采样;
表示对[*]中的(o,a,r,o′)和z取期望,Qξ(o,a,z)表示所述Q网络,r表示所述瞬时奖励,γ表示折扣因子,表示目标状态价值网络。
5.根据权利要求4所述的策略网络训练方法,其特征在于,所述软参与者-评价者算法中V网络的损失函数采用第二公式表示,所述第二公式包括:
其中,表示所述V网络,表示所述Q网络,z表示所述虚拟用户的所述表示向量,表示不参与梯度更新,表示所述策略网络。
6.根据权利要求5所述的策略网络训练方法,其特征在于,所述柔性制动-评价算法中所述策略网络的损失函数采用第三公式表示,所述第三公式包括:
其中,表示对[*]中的o、a和z取期望,o表示一个所述当前血糖状态,o~B表示o从B中采样,a表示所述胰岛素输注方案,a~πθ表示a从πθ中采样,表示求所述策略网络和之间的KL散度,表示所述Q网络,是一个配分函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姜京池,未经姜京池许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111483733.1/1.html,转载请声明来源钻瓜专利网。