[发明专利]一种机器学习妊娠期糖尿病发病风险及病情程度预测系统有效
申请号: | 201611168422.5 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106446595B | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 徐先明;吴海龙;刘轩;李康;潘永锋;李军 | 申请(专利权)人: | 上海尚戴科技发展有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/30 |
代理公司: | 北京共腾智慧专利代理事务所(普通合伙) 11608 | 代理人: | 白海佳 |
地址: | 200336 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种机器学习妊娠期糖尿病发病风险病情程度预测系统,其组成包括:数据采集模块,所述的数据采集模块的输出端与数据预处理模块的输入端连接,所述的数据预处理模块的输出端与机器学习模块和专家系统模块的输入端连接,所述的机器学习模块的输出端与风险性评估模块的输入端连接,所述的风险性评估模块的输出端与专家系统模块输入端连接,所述的专家系统模块的输出端与显示输出模块的输入端连接。一种机器学习妊娠期糖尿病发病风险及病情程度预测系统,其基于人工智能的机器学习算法,用于预测妊娠期糖尿病的发病风险和/或病情程度,并结合互联网和大数据技术,应用在广大妊娠期糖尿病的患者医生人群中。 | ||
搜索关键词: | 一种 机器 学习 妊娠期 糖尿病 发病 风险 病情 程度 预测 系统 | ||
【主权项】:
1.一种机器学习妊娠期糖尿病发病风险及病情程度预测系统,其组成包括:数据采集模块、数据预处理模块、机器学习模块、风险性评估模块、专家系统模块、显示输出模块,其特征是:所述的数据采集模块的输出端与数据预处理模块的输入端连接,所述的数据预处理模块的输出端与机器学习模块和专家系统模块的输入端连接,所述的机器学习模块的输出端与风险性评估模块的输入端连接,所述的风险性评估模块的输出端与专家系统模块输入端连接,专家系统模块的输出端与显示输出模块的输入端连接,数据采集模块负责采集孕妇的数据,包括对孕妇的年龄,身高,体重,血糖,怀孕周期数据的采集工作,其中,年龄,身高、工作性质和每周运动量为节点数据,体重、血糖和怀孕周期为流数据,所述的数据预处理模块负责数据的预处理工作,包含两部分工作,数据清洗、数据标准化,数据清洗负责清洗出无效数据和错误数据,数据标准化是指将用户的年龄,体重,血糖,怀孕周期数据,统一度量单位,统一格式,所述的机器学习模块负责分析单因素连续时间变量与妊娠期糖尿病之间的关系,该模块采用隐马尔科夫模型分析单因素的异常波动与妊娠期糖尿病之间的关系,其模型可以由一个五元组表示;λ=(A,B,π,Q,V) (1)身体状态集合Q孕妇的身体状态是一个隐含变量,日常生活中不可能被直接观测出来,因此用隐马尔科夫模型中的隐含状态表示孕妇的身体健康状态,设Q是所有可能的身体健康状态的集合,则Q={q0,q1} (2)其中,q0表示孕妇身体处于健康状态,q1表示孕妇身体处于非健康状态;检测指标集合V在医疗诊断环节中,孕妇的检查指标是可以观测到的变量,因此,令孕妇的身体检测指标集合作为可观测状态集合,设V是某项检测项目所有可能检测结果的集合,则V={v1,v2,…,vM} (3)其中,M是可能的检测结果的数量;身体状态转移矩阵A设L是长度为T的身体健康状态序列,L=(l0,l1,l2,…,lT),孕妇的当前的状态与之前的身体状态有关,则身体状态转移矩阵A为:A=[aij]N×N (4)其中,aij=p(lr=qi|lr‑1=qj),1≤r≤T (5)表示状态转移概率,其中aij是与时间t独立的,且满足0≤aij≤1,
身体状态观测概率矩阵B设O是对应的检测项目观测序列,O=(o1,o2,…,oT),则观测概率矩阵为B=[bi(k)]N×M (6)其中,bi(k)=p(ot=vk|lr=qi),1≤r≤T表示顾客身体健康状态与检测指标之间观测概率,其中bi(k)是与时间t独立的,且满足0≤bi(k)≤1,
初始孕妇身体状态分布π描述了在初始状态时,孕妇身体健康与非健康状态之间的比例;π=(πl) (7)其中,πi=P(lr=qi),1≤r≤T (8)且满足0≤πi≤1,且
采用前向后向算法,对隐马尔科夫模型进行学习,前向学习算法过程如下:第一步,确定前向概率αt(i);在给定隐马尔科夫模型λ中,前向概率是指到时刻t时孕妇某项检测指标为o1,o2,…,ot且孕妇的身体状态为qi的条件概率,记作
然后通过归纳法求解αt+1(i)递推可得:
那么,前向观测概率为
第二步确定后向概率;在给定隐马尔科夫模型λ中,后向变量βt(i)是指在t时刻为状态qi的条件下,从t+1到T的部分孕妇检测指标序列为ot+1,ot+2,…,oT的条件概率,记作
通过归纳法求解βt(i)可得:
于是可以得出:
第三步执行EM算法的E步:求Q函数![]()
其中,
是隐马尔科夫模型参数的当前估计值,λ是要极大化的隐马尔科夫模型参数;P(O,L|λ)=πibi(ot)ai…b1(o1)a1 (16)于是函数
可以改写为
第四步执行EM算法的M步:极大化Q函数
由于要极大化的参数在公式中单独出现在三个项中,所以只需要对各项分别极大化即可,分别对每一项进行拉格朗日乘子法求解,可以找到使得公式取得最大值的条件,分别如下所示;采用Hadar等价变换,在隐马尔科夫模型中,状态序列为
其观测过程为
令Yt=[lt,lt‑1,…,lt‑(r‑1)],1≤t≤T (18)则可以由公式得出第一项极大化条件:
第二项极大化条件:
第三项极大化条件:
所述的风险性评估模块在获得模型中各个参数之后,给定任何孕妇的某项项目的检测指标,采用维特比算法就可以识别出每一个时刻的孕妇的身体状态,从而可以判断出当前孕妇患病的风险;定义t模式时为单个身体状态序列中的最大值,则在时刻t模式时检测为身体状态概率最大值为
采用维特比算法,就可以得到某一个孕妇在某时刻的身体状态;算法流程初始化:δ1(i)=πibi(o1) (23)
其中,0≤i≤N‑1递归计算:![]()
其中,0≤i≤N‑1中断:![]()
回溯最佳路径:
最佳的身体状态序列:Y*=l2‑r…lT (30)通过上述方式,就可以根据孕妇的实时的检测项目具体指标,判断出孕妇当前的身体健康状态,从而判断出孕妇患病的风险,所述的专家系统模块根据孕妇的风险性评估模块,通过分析不同检验指标,可以得出孕妇可能患有妊娠期糖尿病的概率,采用BP神经网络方法评估各指标的风险性,从而对患病概率做出预测,BP神经网络包括三层,分别是输入层,隐含层和输出层;输入层输入与妊娠期糖尿病有关的各个因素,分别为孕妇年龄x1、血糖风险x2、体脂比风险x3、工作性质x4、锻炼强度指标x5,采用有监督学习算法进行训练集学习,根据给出正确的输入和输出对神经网络进行调整,让神经网络能做出正确的反应,学习训练样本表示为
其中,
为样本输入数据,yi为样本输出数据,N为训练集样本数量,通过学习调整各神经元的参数,让神经网络产生期望的结果;其中,隐含神经元的功能函数为
其中,θ'为指定的阈值,w为权重,且f=1‑ex/1+ex输出层的功能函数为
其中,θ”为指定的阈值,u为权重,且f=1‑eh/1+eh,所述的显示输出模块根据孕妇的实际判断数据,做出相应的输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海尚戴科技发展有限公司,未经上海尚戴科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611168422.5/,转载请声明来源钻瓜专利网。