[发明专利]一种高维特征空间中基于聚类算法的就诊人群分组方法在审
| 申请号: | 202010469507.7 | 申请日: | 2020-05-28 |
| 公开(公告)号: | CN111738304A | 公开(公告)日: | 2020-10-02 |
| 发明(设计)人: | 陈明东;黄越 | 申请(专利权)人: | 思派健康产业投资有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G16H10/00 |
| 代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国强 |
| 地址: | 510700 广东省广州市黄*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 特征 空间 基于 算法 就诊 人群 分组 方法 | ||
本发明公开了一种高维特征空间中基于聚类算法的就诊人群分组方法,所述方法包括以下步骤,S1、以患者为汇总维度进行聚类前的特征提取,提取的特征包括疾病种类、限额使用率、个人自费占比、有无住院以及就诊间隔;S2、计算各个特征之间的相关性,依次判断各个相关性是否大于设定阈值,若是,则剔除该相关性对应的特征,并执行步骤S3;若否,则直接执行步骤S3;S3、获取聚类算法中的最优选择聚类数;S4、将最优选择聚类数输入聚类算法中,对步骤S2中的特征进行聚类,并对聚类结果分别进行业务解释。优点是:本方法中的聚类算法能够对Elbow方法中的损失函数进行归一化,且引入了类外和的概念,用以刻画描述聚类后不同类之间的距离远近。
技术领域
本发明涉及聚类算法领域,尤其涉及一种高维特征空间中基于聚类算法的就诊人群分组方法。
背景技术
聚类算法可以说是无监督学习中最常用的一类算法,它可以在无事先标记的情况下给数据集分类,然后通过各类中特征变量的统计总结,给出各类直接区别的标识。虽然聚类算法已经发展了很多年,在学术界已经提出了非常多的具体算法,但在实际使用中,考虑到算法的稳定性、易用性、速度和计算资源消耗等问题,用的最多的还是Kmeans算法。这个算法的一大弊端就是需要提前指定聚类数目K。实际使用中往往需要使用者根据业务经验,或者通过可视化方法确定。其中可视化方法在特征维度超过3时就基本失效了,虽然某些情况下可以通过最先进的降维方法把数据集降维至2-3维进行可视化,但这个过程中往往会造成信息的丢失,比如原来高维中可明显区分出来的两个类有可能在降维后变得不可分。而业务经验判断的局限性则更大,当业务场景复杂后,难以有足够有效的业务经验,并且原有业务经验进行的判断也有可能致使当前数据中的某些细分类别丢失。目前有一种方法可以帮助进行K的选择,即Elbow方法。Elbow方法是预先设定一个损失函数,一般选择在给定K值聚类后的各类内部距离之和为损失函数,Elbow方法先画出一条损失函数关于K的变化曲线,然后人为地找该曲线上的“突变点”,认为在该K值前后,损失函数发生明显变化,所以取该K使用。
然而,Elbow方法存在明显的问题:首先,损失函数必然是随着K的增加而下降的,在没有“基准线”的情况下,如果“突变点”较为多且复杂,还是会对K值的选取造成障碍;此外,对于本身在特征空间中分布比较密集的数据而言,损失函数曲线不一定会有明显的“突变点”,也会使得该曲线的参考价值消失。因此需要考虑一种别的方法对K值的选取给出指导,这样在实际使用中,才会对数据集做出较优的划分。
在实际医疗数据的就诊人群划分时,往往会通过人群的就诊历史根据业务经验总结出很多的统计特征来实现对人群的全方位描述,因此会形成很高维的特征空间,而且一般来说,在该特征空间中数据点分布相对密集,因此需要比Elbow方法更有效的方法来进行K值选择。
发明内容
本发明的目的在于提供一种高维特征空间中基于聚类算法的就诊人群分组方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种高维特征空间中基于聚类算法的就诊人群分组方法,所述方法包括以下步骤,
S1、以患者为汇总维度进行聚类前的特征提取,提取的特征包括疾病种类、限额使用率、个人自费占比、有无住院以及就诊间隔;
S2、计算各个特征之间的相关性,依次判断各个相关性是否大于设定阈值,若是,则剔除该相关性对应的特征,并执行步骤S3;若否,则直接执行步骤S3;
S3、获取聚类算法中的最优选择聚类数;
S4、将最优选择聚类数输入聚类算法中,对步骤S2中的特征进行聚类,并对聚类结果分别进行业务解释。
优选的,步骤S4具体包括如下内容,
S31、从2-80中依次选择一个数值作为聚类数,对各个聚类数进行KMeans聚类以获取各个聚类数的类内和以及类外和;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思派健康产业投资有限公司,未经思派健康产业投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010469507.7/2.html,转载请声明来源钻瓜专利网。





