[发明专利]一种基于多视图主题建模技术的异常处方筛选方法有效
申请号: | 201810992868.2 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109448808B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 赵俊峰;詹思延;谢冰;卓琳;唐爽;刘少钦 | 申请(专利权)人: | 北京大学 |
主分类号: | G16H20/10 | 分类号: | G16H20/10;G16H70/40;G06F16/335;G06K9/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视图 主题 建模 技术 异常 处方 筛选 方法 | ||
本发明公开一种基于多视图主题建模技术的异常处方筛选方法,其步骤为:1)将来自医疗系统的数据整理成处方数据,其中每条处方数据中包含诊断特征和用药特征;2)将处方数据输入MV‑LDA模型进行训练;其中,MV‑LDA模型包括K个主题,每个主题中包含诊断特征视图和用药特征视图;主题k中的诊断特征视图由一个诊断特征集合和在每个诊断特征的所对应的概率值组成,用药特征视图由一个用药特征集合和集合中每个用药特征所对应的概率值组成;3)利用训练好的MV‑LDA模型对待识别处方数据进行推断,得到其基于诊断特征的主题分布和基于用药特征的主题分布;然后计算两主题分布的相似度,判断该待识别处方数据是否为异常处方。
技术领域
本发明属于医疗信息处理领域,涉及一种基于多视图主题建模技术的异常处方筛选方法,通过对处方进行建模来检测医疗处方中的异常处方。
背景技术
现有医疗领域内的异常检测算法可以分成有监督和无监督两类。在有监督的学习方法中,常用一些机器学习方法对人工标注的医疗数据进行分析。例如,M.Kumar等人在一个标记了足够多异常实例并且质量良好的数据集中,运用SVM有监督学习方法,检测医疗索赔数据中的记录错误(Kumar M,Ghani R,Mei Z S.Data mining to predict and preventerrors in health insurance claims processing:ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining,Washington,Dc,Usa,July,2010[C].),K.Heller等人(Chandola V,Banerjee A, Kumar V.Anomaly detection:A survey[M].ACM,2009.)。假设所有实例都属于某个确定的类别,用SVM方法从数据集中描绘出两类实例的边界,任何分错边的实例都被视为有异常信息的实例。但是由于获取有监督学习所需要的高质量标记数据集非常困难,为此,研究人员也提出了一系列的无监督的异常检测方法。无监督方法一般是通过寻找离群点来实现的,通过把每个实例抽象成高维空间中的一个点,把远离空间中其他点的数据点作为异常点。例如, Yamanishi等人就是使用基于概率生成模型的无监督PAD方法去检测病理数据的异常 (Yamanishi K,Takeuchi J I,Williams G,et al.On-line unsupervised outlier detection using finite mixtureswith discounting learning algorithms.[J].Data Mining and Knowledge Discovery,2004,8(3):275-300);以及M.M.Breunig等人提出的基于密度的LOF方法(Breunig MM.LOF: identifying density-based local outliers:ACM SIGMOD InternationalConference on Management of Data,May 16-18,2000,Dallas,Texas,Usa,2000[C].)。但是在医疗领域中,这类离群点并不一定都是异常数据,因为医疗领域中存在着大量的发病率很低的罕见病,实际上,除去部分较为常见的病症之外,大部分的疾病发病率都非常低,异常点检测的方法无法处理这类问题。与罕见数据相比,我们更希望检测那些特征之间不匹配的实例。上下文异常检测(CAD)就是一种使用两类特征之间的关系进行异常值检测的无监督方法,CAD把特征分为上下文特征,设为y,和指示特征,设为x,在假设绝大多数数据是正常的情况下,学习得出x到y的一个映射函数,y=f(x)。对于某一条测试数据,如果其两类特征不符合y=f(x),就认为这条数据是异常数据。CAD方法在医疗中也有应用,例如J.Hu等人的解决方案是在指示特性和一组语境特征上使用回归模型,然后使用剩余部分的测试实例,来确定异常值,从而在医疗记录中识别异常用药案例(Hu J,Wang F,Sun J,et al.AHealthcare Utilization Analysis Framework for Hot Spotting and ContextualAnomaly Detection[J].AMIA...Annual Symposium proceedings/ AMIA Symposium.AMIASymposium,2012,2012:360-369.)。但是由于医疗数据的高维稀疏性,CAD方法在医疗领域取得的效果并不好,且CAD方法只能用于检测两类特征之间的不匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810992868.2/2.html,转载请声明来源钻瓜专利网。