[发明专利]一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法有效
申请号: | 201611073910.8 | 申请日: | 2016-11-29 |
公开(公告)号: | CN106779181B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 王静远;林雅婷;吴俊杰;熊璋 | 申请(专利权)人: | 深圳北航新兴产业技术研究院 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9537;G06Q30/02;G06Q30/06 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 李有浩 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 线性 回归 因子 矩阵 分解 模型 医疗机构 推荐 方法 | ||
1.一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法,其特征在于包括有下列步骤:
步骤A:初始化医疗机构推荐系统,并从GPS地理信息模块、医疗机构信息模块、病患就诊信息模块和手机基站信息模块中获取推荐用原始数据;
GPS地理信息模块,用于提供目标的地理位置,地理位置以经度和纬度显示,即(x,y);
医疗机构信息模块,用于提供不同医疗机构的名称、医疗机构类型、患者关联信息、治疗特色信息;所述患者关联信息有就诊信息DI和患者就诊时间信息DT;而就诊信息DI包括有患者的住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话相关信息,其中,患者的住址为不可缺少项;
病患就诊信息模块,用于提供患者自愿公开的患者基础信息,包括有患者的住址、患者的病历、患者的姓名、患者的年龄、患者的性别、患者的电话相关信息;
手机基站信息模块,用于提供手机用户注册信息、用户的移动状态信息、用户登录互联网信息;
医疗机构推荐系统中,居住区域记为re,多个居住区域形成的居住区域集记为RE={re1,re2,…,ren-1,ren,ren+1,…,rea},角标a表示居住区域的总个数,n表示居住区域的标识号; 居住区域re的地理位置re(x,y)中的x为经度,y为纬度;
re1表示第一个居住区域,所述第一个居住区域re1的地理位置记为
re2表示第二个居住区域,所述第二个居住区域re2的地理位置记为
ren表示任意一个居住区域,所述任意一个居住区域ren的地理位置记为
ren-1表示与ren距离最近的一个居住区域,简称为前一个居住区域,所述前一个居住区域ren-1的地理位置记为
ren+1表示与ren距离次近的一个居住区域,简称为后一个居住区域,所述后一个居住区域ren+1的地理位置记为
rea表示最后一个居住区域,所述最后一个居住区域rea的地理位置记为
医疗机构推荐系统中,医疗机构记为Doctor,多个医疗机构形成的医疗机构集记为DC={Doctor1,Doctor2,…,Doctorb},角标b表示医疗机构的总个数,也是医疗机构的标识号;医疗机构Doctor的地理位置Doctor(x,y)中的x为经度,y为纬度;
Doctor1表示第一个医疗机构,所述第一个医疗机构Doctor1的地理位置记为
Doctor2表示第二个医疗机构,所述第二个医疗机构Doctor2的地理位置记为
Doctorb表示最后一个医疗机构,所述最后一个医疗机构Doctorb的地理位置记为为了方便叙述,将Doctorb也称为任意一个医疗机构;
医疗机构推荐系统中,手机用户记为Phone,多个手机用户形成的手机用户集记为PH={Phone1,Phone2,…,Phonec},角标c表示手机用户的总个数,也是手机用户的标识号;手机用户Phone所属的手机基站地理位置Phone(x,y)中的x为经度,y为纬度;
Phone1表示第一个手机用户,所述第一个手机用户Phone1所属的手机基站地理位置记为
Phone2表示第二个手机用户,所述第二个手机用户Phone2所属的手机基站地理位置记为
Phonec表示最后一个手机用户,所述最后一个手机用户Phonec所属的手机基站地理位置记为为了方便叙述,将Phonec也称为任意一个手机用户;
医疗机构推荐系统应用手机用户信息来表征医疗机构与居住区域之间的人流量;
步骤B:应用步骤A获取的推荐用原始数据构建二维医疗机构—居住区就诊量矩阵;
医疗机构—居住区就诊量矩阵记为
b表示医疗机构的总个数,a表示居住区域的总个数;
表示Doctor1跟re1之间映射的的就诊量;所述的计算关系为:判断患者在Doctor1的就诊信息的住址是否位于居住区域re1的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录;表示去Doctor1进行就诊的患者的家庭住址;
表示Doctor1跟re2之间映射的的就诊量;所述的计算关系为:判断患者在Doctor1的就诊信息的住址是否位于居住区域re2的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录;
表示Doctor1跟rea之间映射的的就诊量;所述的计算关系为:判断患者在Doctor1的就诊信息的住址是否位于居住区域rea的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录;
表示Doctor2跟re1之间映射的的就诊量;所述的计算关系为:判断患者在Doctor2的就诊信息的住址是否位于居住区域re1的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录;表示去Doctor2进行就诊的患者的家庭住址;
表示Doctor2跟re2之间映射的的就诊量;所述的计算关系为:判断患者在Doctor2的就诊信息的住址是否位于居住区域re2的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录;
表示Doctor2跟rea之间映射的的就诊量;所述的计算关系为:判断患者在Doctor2的就诊信息的住址是否位于居住区域rea的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录;
表示Doctorb跟re1之间映射的的就诊量;所述的计算关系为:判断患者在Doctorb的就诊信息的住址是否位于居住区域re1的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录;表示去Doctorb进行就诊的患者的家庭住址;
表示Doctorb跟re2之间映射的的就诊量;所述的计算关系为:判断患者在Doctorb的就诊信息的住址是否位于居住区域re2的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录;
表示Doctorb跟rea之间映射的的就诊量;所述的计算关系为:判断患者在Doctorb的就诊信息的住址是否位于居住区域rea的地理位置里,是,则在Tm就诊量中记录下否,放弃在Tm就诊量中记录;
步骤C:根据步骤B得到的医疗机构—居住区就诊量设计适用于时空多维度条件下,多尺度与多粒度的海量数据的线性回归张量因子;
线性回归张量因子记为FR=[Rr,Rs,Rt]b×a×3;
距离因子
就诊量因子
人流量因子r表示距离标识,s表示就诊量标识,t表示人流量标识;b的取值为321,a的取值为1343;
表示Doctor1跟re1之间的距离,利用和进行距离的计算,计算公式为
表示Doctor1跟re2之间的距离,利用和进行距离的计算,计算公式为
表示Doctor1跟rea之间的距离,利用和进行距离的计算,计算公式为
表示Doctor2跟re1之间的距离,利用和进行距离的计算,计算公式为
表示Doctor2跟re2之间的距离,利用和进行距离的计算,计算公式为
表示Doctor2跟rea之间的距离,利用和进行距离的计算,计算公式为
表示Doctorb跟re1之间的距离,利用和进行距离的计算,计算公式为
表示Doctorb跟re2之间的距离,利用和进行距离的计算,计算公式为
表示Doctorb跟rea之间的距离,利用和进行距离的计算,计算公式为
表示Doctor1跟距离re1最近的5个居住区域之间的患者就诊量的平均值;令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域;的计算形式为距离最近的五个居住区域表现形式为则
表示Doctor1跟距离re2最近的5个居住区域之间的患者就诊量的平均值;令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域;的计算形式为令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,ren-1,ren,ren+1,rea为距离最近的五个居住区域;的计算形式为
表示Doctor1跟距离rea最近的5个居住区域之间的患者就诊量的平均值;
令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域;的计算形式为令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,re2,ren-1,ren,ren+1为距离最近的五个居住区域;的计算公式为
表示Doctor2跟距离re1最近的5个居住区域之间的患者就诊量的平均值;令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域;的计算形式为令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re2,ren-1,ren,ren+1,rea为距离最近的五个居住区域;的计算公式为
表示Doctor2跟距离re2最近的5个居住区域之间的患者就诊量的平均值;令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域;的计算形式为令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,ren-1,ren,ren+1,rea为距离最近的五个居住区域;的计算公式为
表示Doctor2跟距离rea最近的5个居住区域之间的患者就诊量的平均值;
令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域;的计算形式为令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,re2,ren-1,ren,ren+1为距离最近的五个居住区域;的计算形式为
表示Doctorb跟距离re1最近的5个居住区域之间的患者就诊量的平均值;令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域;的计算形式为令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re2,ren-1,ren,ren+1,rea为距离最近的五个居住区域;的计算公式为
表示Doctorb跟距离re2最近的5个居住区域之间的患者就诊量的平均值;令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域;的计算形式为令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,ren-1,ren,ren+1,rea为距离最近的五个居住区域;的计算公式为
表示Doctorb跟距离rea最近的5个居住区域之间的患者就诊量的平均值;令为从RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中选出的距离最近的五个居住区域;的计算形式为令RE={re1,re2,…,ren-1,ren,ren+1,…,rea}中的re1,re2,ren-1,ren,ren+1为距离最近的五个居住区域;的计算公式为
表示Doctor1跟re1之间映射的人流量;所述的计算关系为:判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在医院基站列表HL中,不是则放弃记录;同理,判断PH={Phone1,Phone2,…,Phonec}中的任意是否位于如果是,则记录在居住区基站列表REL中,不是则放弃记录;如果Phonec同时存在于医院基站列表HL和居住区基站列表REL中则在人流量因子Rt中记录否则,放弃记录;
步骤D:依据步骤C的线性回归张量因子重新对步骤B的医疗机构—居住区就诊量矩阵进行处理,得到医疗机构推荐目标模型;
步骤E:在医疗机构推荐系统中应用步骤D的医疗机构推荐目标模型,并初始化;然后采用隐性特征模型对多元异构的推荐用原始数据进行活化数据挖掘,得到隐性特征矩阵;
医疗机构推荐目标模型记为
F表示范数,即Frobenius范数;
γ表示医院隐性特征矩阵的系数;
θ表示对FR张量因子的学习系数;
δ表示居住区隐性特征矩阵的系数;
Weight缺失表示缺失值权重;
当前轮次的J值,记为J当前与前一次的J值,记为J前一次进行差值比较ΔJ=|J当前-J前一次|,若ΔJ趋近于0,则隐性特征模型J达到收敛,并用医疗机构推荐目标模型来修改医疗机构—居住区就诊量矩阵;若ΔJ不趋近于0,则说明隐性特征模型J未达到收敛,返回步骤E重新进行隐性特征矩阵获取;
缺失值权重
取值范围是0或者1,0代表Doctor1跟re1之间的数据缺失,是需要预测的对象,1代表Doctor1跟re1之间的数据存在,不需要预测;
取值范围是0或者1,0代表Doctor1跟re2之间的数据缺失,是需要预测的对象,1代表Doctor1跟re2之间的数据存在,不需要预测;
取值范围是0或者1,0代表Doctor1跟rea之间的数据缺失,是需要预测的对象,1代表Doctor1跟rea之间的数据存在,不需要预测;
取值范围是0或者1,0代表Doctor2跟re1之间的数据缺失,是需要预测的对象,1代表Doctor2跟re1之间的数据存在,不需要预测;
取值范围是0或者1,0代表Doctor2跟re2之间的数据缺失,是需要预测的对象,1代表Doctor2跟re2之间的数据存在,不需要预测;
取值范围是0或者1,0代表Doctor2跟rea之间的数据缺失,是需要预测的对象,1代表Doctor2跟rea之间的数据存在,不需要预测;
取值范围是0或者1,0代表Doctorb跟re1之间的数据缺失,是需要预测的对象,1代表Doctorb跟re1之间的数据存在,不需要预测;
取值范围是0或者1,0代表Doctorb跟re2之间的数据缺失,是需要预测的对象,1代表Doctorb跟re2之间的数据存在,不需要预测;
取值范围是0或者1,0代表Doctorb跟rea之间的数据缺失,是需要预测的对象,1代表Doctorb跟rea之间的数据存在,不需要预测;
线性回归张量因子FR选用了多个就诊量协同,因此线性回归张量因子FR的系数记为
表示Doctor1跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值;α表示梯度下降系数;sum为加和函数符号;
表示Doctor1跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值;
表示Doctor1跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值;
隐性特征有2个,即医疗机构的隐性特征记为
表示Doctor1跟re1之间就诊量预测的隐性特征值,最大迭代次数记为m,且m=500;每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:α表示梯度下降系数;
表示Doctor1跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctor1跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctor2跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctor2跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctor2跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctorb跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctorb跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
表示Doctorb跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示Q特征矩阵的转置;计算公式:
即居住区域的隐性特征记为
表示Doctor1跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor1跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor1跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor2跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor2跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctor2跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctorb跟re1之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctorb跟re2之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
表示Doctorb跟rea之间就诊量预测的隐性特征值,迭代m次循环计算,每一轮的都由前一轮的隐性特征值通过以下公式更新,第一轮的表示随机产生的一个初始数值,表示P特征矩阵的转置;计算公式:
步骤F:通过步骤E得到的隐性特征矩阵,迭代计算医疗机构—居住区就诊量矩阵;若未达到收敛,则返回步骤E,重新计算隐性特征矩阵偏导;若收敛,则修正医疗机构—居住区就诊量矩阵;
以来修正步骤B构建的医疗机构-居住区域就诊量矩阵,记为Tm就诊量_重构;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
表示经修正后的就诊量;
步骤G:以推荐标准误差模型对经步骤F修正后的医疗机构—居住区就诊量矩阵进行推荐标准误差的计算,若标准误差小于0.3,则将获得推荐结果提供给用户;
推荐标准误差模型记为
计算推荐标准误差模型RMSE就诊量_误差作为算法准确度的评判标准,如果Weight缺失中为0,则通过所述RMSE就诊量_误差来对和进行相似度衡量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳北航新兴产业技术研究院,未经深圳北航新兴产业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611073910.8/1.html,转载请声明来源钻瓜专利网。