[发明专利]基于改进生成对抗网络的存在骗保行为的患者识别方法有效
申请号: | 202110936287.9 | 申请日: | 2021-08-16 |
公开(公告)号: | CN113628057B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 陈妍;金赞;周文慧;梁伟;李明杰;罗雪琴 | 申请(专利权)人: | 湖南工商大学 |
主分类号: | G06Q40/08 | 分类号: | G06Q40/08;G06N3/04;G06N3/08 |
代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 黄敏华 |
地址: | 410006 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 生成 对抗 网络 存在 行为 患者 识别 方法 | ||
1.一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,具体包括如下步骤:
S1:获取普通住院与普通门诊类型的发生骗保行为医院的年度医保报销数据,数据属性包括患者就诊行为信息字段、医保目录内患者费用组成字段、患者医疗费用组成字段;
S2:对该医院所有患者普通住院和普通门诊的报销数据进行预处理;
S3:构建患者训练数据集D1和测试数据集D2;
S4:利用训练数据集D1训练改进生成对抗网络模型;
S5:利用训练后的改进生成对抗网络模型,输入测试数据集D2,得到异常分值集合,据此挑选异常阈值;
S6:利用异常阈值构建分类识别模型;
S7:定期更新医院新的报销数据,更新训练集与测试集中的样本,重复S4至S6,分别对应更新改进生成对抗网络模型的参数和分类识别模型的参数;
步骤S2具体包括如下步骤:
S21:删除普通门诊和普通住院报销数据单笔报销费用中显著异常费用;
S22:删除重复记录;
S23:0值填充各类费用字段为空的记录;
S24:从0到总类别数对类别型数据进行字典编码,将其转变为数值型数据;
S25:数值归一化数值型数据,其具体计算公式为:
a表示数据缩放区间上限,b表示数据缩放区间的下限;
步骤S3具体包括如下步骤:
S31:依据就诊时间将单个患者的多条报销记录组成患者特征矩阵Xw×h,w为报销数据字段个数,h为患者年度报销记录最大维度,对于年度报销记录维度少于h样本进行0值填充;
S32:构建仅含正常患者特征矩阵训练集D1={X1,X2,...,XM}以及同时包含正常患者和具有骗保行为患者的特征矩阵测试集其中Xi为患者特征矩阵,yi∈{0,1}为样本标签,其中1表示具有骗保行为的样本,0表示正常样本;
步骤S4具体包括如下步骤:
S41:利用改进生成对抗网络模型的生成器网络G,生成器网络G设置编码器网络GE和解码器网络GD两个子网络,通过输入正常患者费用特征矩阵x,得到向量z=GE(x)以及患者特征矩阵
S42:利用改进生成对抗网络模型的编码器网络E,通过输入患者特征矩阵得到特征表示
S43:利用改进生成对抗网络模型的判别器网络D,通过输入患者特征矩阵得到判别函数
S44:构建损失函数L=wadvLadv+wconLcon+wencLenc,其中,
wadv为判别器损失函数权重,
wcon为编码器损失函数权重,
wenc为解码器损失函数权重,
E(*)为分布函数的期望值,
x~P(x)表示正常样本的分布;
S45:利用输入训练数据集,通过最小化损失函数,得到训练后改进生成对抗网络模型;
步骤S41具体包括如下步骤:
S411:生成器网络G首先读取一个正常患者费用特征矩阵并将其转为x,其中x∈Rw×h,Rw×h为x的维度;
S412:将x向传递给其编码器网络GE,使用卷积层分别进行批规范化处理和LeakyReLU函数激活,GE将其特征矩阵压缩为向量z,其中z∈Rd,Rd为z的维度,z为具有包含单个正常患者费用特征矩阵x的最佳表示的最小维度;
S413:将z传递给生成器网络G的解码器网络GD,GD采用DCGAN中的生成器的架构,使用卷积转置层、ReLu激活函数和批规范化处理以及最末端的tanh层将向量z向上缩放,将正常患者费用特征矩阵x重构为
S414:基于以上步骤,生成器网络G通过生成患者特征矩阵其中z=GE(x),该网络设置损失函数Lcon将输入的正常患者费用特征矩阵x与生成的患者特征矩阵差距最小化:
步骤S42具体包括如下步骤:
S421:将患者特征矩阵传递到编码器网络E,用于压缩由生成器网络G重构的它的网络结构具有与GE相同的网络架构;
S422:E压缩以找到其特征表示向量的维数与z的维数相同,该子网络E通过学习z的参数并利用编码损失函数Lenc最小化z与差距:
步骤S43具体包括如下步骤:
S431:将输入x和输出输入到判别器网络D,D判别输入的图片为真实样本或者生成样本,这个子网络结构采用DCGAN的标准判别器网络;
S432:该子网络结构的利用对抗性损失函数Ladv计算判别误差:
x是服从高斯分布的一个随机值,Ladv用于使得生成样本欺骗判别器网络;
步骤S5具体包括如下步骤:
S51:利用训练后改进生成对抗网络模型,输入测试集样本,得到该样本的异常分值A(x),其中A(x)=||GE(x)-E(G(x))||1,
最终得到整个测试集D2异常分值集合S={si:A(x),xi∈D2};
S52:利用步骤S25中的公式,将异常分数集合S数值区间转换到区间[0,1];
S53:将测试样本异常分值升序排列,选择将测试样本中正常患者样本与骗保患者样本区分开的异常分值阈值
步骤S6具体包括:
其中0表示正常标识,1表示骗保标识。
2.根据权利要求1所述的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,步骤S1中,所述患者就诊行为信息字段包括就诊时间、住院天数,所述医保目录内患者费用组成字段包括甲类药品费用、乙类药品费用,所述患者医疗费用组成字段包括西药费、材料费。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110936287.9/1.html,转载请声明来源钻瓜专利网。