[发明专利]一种基于梯度提升树的蚊媒传染病疫情预测方法及系统有效
| 申请号: | 201810097508.6 | 申请日: | 2018-01-31 |
| 公开(公告)号: | CN108172301B | 公开(公告)日: | 2021-02-02 |
| 发明(设计)人: | 张凤军;邱晓慧;周红宁;杜龙飞;梁赓;王鑫 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G16H50/80 | 分类号: | G16H50/80 |
| 代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 梯度 提升 传染病 疫情 预测 方法 系统 | ||
1.一种基于梯度提升树的蚊媒传染病疫情预测方法,其特征在于:所述方法全面收集影响蚊媒传染病的因素,对缺失值、原始值分别采用薄板样条插值与正则匹配方式进行处理,根据梯度提升树对各因素重要度进行排序,基于泊松回归建立蚊媒传染病疫情态势预测模型,之后采用S折交叉验证确定模型参数,利用地理信息的疫情热点图、基于时间轴的疫情爆发图展示预测结果;
具体包括以下步骤:
第一步,收集数据
所述数据包括蚊媒及传染病数据、地理数据、气象数据、社会人文数据,共25维,包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据、土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积、平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数、人口数据、交通数据和过境数据;蚊媒及传染病数据由疾控相关人员通过蚊媒传染病防控平台将现场流调数据上报;地理数据由分析遥感数据得到;气象数据由中国气象网以及现场建立监测点得到;社会人文数据通过政府相关资料得到;
第二步,数据清洗
上述数据存在数据缺失、数据杂乱、数据重复情况,为解决上述问题,对单条记录缺失值采取周围平均化的方式填补数据,直至填补完所有缺失值;对部分区域或者站点缺失值,采用薄板样条插值法,其具体过程如下:针对气象监测站点收集到的气象数据存在时间间隔不均匀的现象,假设气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内已经收集到n+1组时间-气象数据对,记为(x1,y1),(x2,y2),…,(xn+1,yn+1),随后构造样条函数式中x,y为要被插入的时间-气象数据对,di为两组时间-气象数据对之间的欧式距离,Ai,a,b,c为相关待定系数,其具体数值根据气象数据随时间的分布情况通过多次实验确定;对数据杂乱情况,采用正则匹配方式得到有效数据;对数据重复,采用过滤方法处理;
第三步,基于梯度提升树选取影响蚊媒传染病因素
梯度提升树是一种由基函数组成的加法模型,其基函数为决策树,由M棵树组合而成,梯度提升树表示为决策树的加法模型为:
其中,fM(x)为梯度提升树函数,T(x;θm)表示单棵决策树函数,θm为第m棵决策树参数,M为决策树的个数,利用收集的N组蚊媒传染病因素-虫媒传染病爆发态势对即(x1,y1),(x2,y2),....(xN,yN)构建梯度提升树模型,基于此模型选取影响登革热爆发态势的因素,具体过程如下所示:
(1)构建梯度提升树
(1-1)确定初始梯度提升树f0(x)=0,第m步的提升树为fm(x)=fm-1(x)+T(x;θm);
(1-2)对于m=1,2,.....M
(a)确定参数,在本发明中采用平方误差损失函数即L(y,f(x))=(y-f(x))2,构建梯度提升树的损失为L(y,fm-1(xi)+T(x;θm))=(y-fm-1(xi)-T(x;θm))2=(r-T(x;θm))2,其中r=y-fm-1(xi),r为当前模型拟合数据的残差;
(b)计算残差,即计算当前模型预测值与真实蚊媒传染病值的差;rmi=yi-fm-1(xi),i=1,2,...,N;
(c)拟合残差rmi学习一棵决策树,得到T(x;θm);
(d)更新fm(x)=fm-1(x)+T(x;θm);
(2)计算单棵决策树经过节点t分裂后,平方损失减少值;
其中,为平方损失减少值即不同蚊媒传染病因素在节点t的重要度,T(x;θm)为单棵决策树函数,xi,yi为蚊媒传染病因素-虫媒传染病爆发态势对,Rw为所预测虫媒传染病爆发态势值;
(3)计算蚊媒传染病因素全局重要度排序
(3-1)计算每个蚊媒传染病因素在单棵蚊媒梯度提升树中重要度,
其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,是第t节点分裂之后平方损失的减少值;
(3-2)根据单棵决策树中重要度计算结果,计算每个因素数据在全部梯度提升树全局重要度其中,
为第j个因素数据在梯度提升树中重要度,Tm表示第m棵决策树,M是梯度提升树含有决策树的数量;
(3-3)对影响蚊媒传染病全部因素依据重要度进行排序;
第四步,选取因素作为特征
依据第三步对第一步收集的25维因素排序,从中选取重要度最大的5维因素构建蚊媒传染病预测模型,经大量反复实验验证,每天的平均气温、最高气温、输入病例人数,平均相对湿度,水域分布及面积被选取;
第五步,基于泊松回归建立预测模型
采用基于泊松回归建立蚊媒传染病预测疫情态势预测模型;
(1)蚊媒传染病预测疫情态势预测模型
蚊媒传染病预测疫情态势预测模型基于泊松回归建立,具体公式如下所示:
C表示蚊媒传染病疫情态势情况,d为日期,S(tempavgd-5,y),S(tempmaxd-5,y)分别定义了五天前平均、最高温度经过薄板样条插值后的数据y,S(importd-5,y)定义五天前输入病例情况,S(rainfalld-5,y)为五天前累积降水量,S(waterd-5,y)为五天前的水域面积情况,为过去15天蚊媒传染病疫情态势情况;为了提高拟合的准确率,加入S(tempavgd-52,y)为五天前平均气温的平方值,使蚊媒传染病疫情态势情况与各因素数据不是单纯的线性关系;
(2)蚊媒传染病疫情态势预测模型参数确定
首先,利用每个因素与蚊媒传染病疫情相关性大小即相关系数初始化模型参数;之后利用S折交叉验证确定模型参数,即采用十折交叉验证法来确定模型参数,具体如下所示:
(a)初始化蚊媒传染病疫情态势预测模型参数,分别计算基于梯度提升树选取的五维因素与蚊媒传染病疫情态势的相关系数;相关系数计算采用皮尔逊系数,将皮尔逊系数作为模型的初始化参数;
(b)调整蚊媒传染病疫情态势预测模型参数,将数据集按照时间顺序分为十份,每份数据量为180,进行多次实验;每次实验随机选取九份即1620组蚊媒传染病因素-虫媒传染病爆发态势对进行训练即构建基于泊松回归的蚊媒传染病预测模型,剩下的一份即180组蚊媒传染病因素-虫媒传染病爆发态势对进行测试,即评估预测模型准确率,依据模型预测准确率调整其参数;
第六步,可视化展示预测结果,预测结果由基于时空结合的可视化展示方法显示,所述展示方法包括基于地理信息的疫情热点图和基于时间轴的疫情爆发图。
2.一种实现如权利要求1所述的基于梯度提升树的蚊媒传染病疫情预测方法的系统,其特征在于:包括数据收集模块、数据预处理模块、因素选择模块、模型建立模块、结果展示模块,其中:
数据收集模块:收集影响蚊媒传染病疫情的多种因素数据;
数据预处理模块:对影响蚊媒传染病疫情的因素数据进行预处理,对所述气象数据利用薄板样条插值法进行处理,对所述历年蚊媒传染病病例数据利用正则匹配法进行处理;
因素选择模块:对预处理后的所述多种因素数据采用梯度提升树方法计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;
模型建立模块:基于所述特征数据建立蚊媒传染病预测模型,利用S折交叉验证确定所述模型的最优参数;
结果展示模块:为可视化展示模型预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810097508.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种确定皮肤状态变化的年龄拐点的方法
- 下一篇:合理用药信息监测方法及系统





