[发明专利]基于强化学习的个性化PEEP调节方法在审
| 申请号: | 202110226923.9 | 申请日: | 2021-03-01 |
| 公开(公告)号: | CN113111907A | 公开(公告)日: | 2021-07-13 |
| 发明(设计)人: | 潘清;周宇涵;葛慧青;张浩源;冯伟达;顾立锋;章灵伟;方路平 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G16H10/60;G16H50/70;G06F16/215;G06F16/9535 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 学习 个性化 peep 调节 方法 | ||
1.一种基于强化学习的个性化PEEP调节方法,其特征在于,该方法通过构建基于患者整个机械通气过程中的生理数据的强化学习模型,强化学习模型代理根据患者的生理数据推荐在下一时段内该患者的个性化PEEP水平实现个性化PEEP调节。其中,强化学习模型构建包括以下步骤:
S1、收集每个患者整个机械通气过程中的生理数据序列,包括患者基本信息,临床评分、呼吸机设置值、生命体征值、血气值等构建成数据集。
S2、将收集的每个患者临床生理数据序列进行数据清洗排除异常值,并将时间序列数据的时间间隔统一,后进行缺失值插补,再进行数据归一化;
S3、构建马尔可夫框架,所述马尔可夫框架包括:
1)有限状态空间S:在时间t,患者将会处于状态st,st包括步骤S2预处理后的患者基本信息,临床评分、除PEEP设置值外的呼吸机设置值、生命体征值、血气值等,具体如下;
2)动作空间A:在时间t,代理采取PEEP设置动作at∈A;
3)转移方程P(st+1|st,at):状态st采取动作at后,转移到状态st+1的概率;
4)奖惩函数r(st,at,st+1):在状态st+1时获得的奖励:若患者最终结局生存:rt=+10;若患者最终结局死亡:rt=-10(et-T)。其中,T为患者总通气时间。
S4、以拟合Q迭代算法为核心构建强化学习模型,具体为:
根据构建的马尔可夫框架提取数据集中所有的单步转换元组其中分别为S3中所述的患者当前状态,PEEP设置动作,患者下一状态和获得的奖励,n表示第n个单步转换元组;
初始化Q值at∈A;初始化极限森林(etr)的参数;然后训练极限森林etr.train()直到达到指定轮数,k=K;其中,对于第k轮,Qk(st,at)=rt+1+γmaxa′∈A(etr.predict(st+1,a′)),其中etr.predict表示用极限森林预测每个动作的回报,γ表示折扣率,a′为预测的动作空间中的每个动作。最终模型学习到的策略为累计回报最大的动作,π*(s)=argmaxa∈AQK(s,a)。
2.根据权利要求1所述的一种基于强化学习的个性化PEEP调节方法,其特征在于,所述步骤S2中将所有生理数据序列中的时间序列特征时间间隔统一为1小时,一小时内有多个值的采用平均值。
3.根据权利要求1中所述的一种基于强化学习的个性化PEEP调节方法,其特征在于,所述步骤S2中缺失值插补具体为:对于患者基本信息中的年龄、身高等数值型数据采取平均值填充缺失值;对于性别、入院类型等类别型数据采取最频繁值填充缺失值;对于时间序列特征,呼吸设置值采用当前最近的一次非空值填充,生命体征和血气值采取线性插值。
4.根据权利要求1中所述的一种基于强化学习的个性化PEEP调节方法,其特征在于,所述步骤S2中对处理后的所有样本进行min-max归一化处理。
其中,vt是每个独立样本中特征v在时间t的值,T为患者总通气时间,max和min分别是整个样本空间的特征v的最大值和最小值。
5.根据权利要求1中所述的一种基于强化学习的个性化PEEP调节方法,其特征在于:所述步骤S3中,PEEP设置动作at采用将连续的PEEP设置值离散获得的6个PEEP水平:
PEEP设置值(cmH2O) PEEP水平 0-5 0 5-8 1 8-10 2 10-12 3 12-15 4 15 5
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110226923.9/1.html,转载请声明来源钻瓜专利网。





