[发明专利]基于孤立森林算法和投票机制的唐氏综合症筛查方法有效
申请号: | 201810592920.5 | 申请日: | 2018-06-11 |
公开(公告)号: | CN108877949B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 张红国;王瑞雪;李玲;刘婉莹;刘睿智;杨潇;黄玉兰;张海蓉;姜雨婷;李磊磊;刘丹;杨秀华 | 申请(专利权)人: | 吉林大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 王淑秋 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 孤立 森林 算法 投票 机制 综合症 方法 | ||
本发明涉及一种基于孤立森林算法和投票机制的唐氏综合症筛查方法,该方法包括下述步骤:数据预处理:将多条样本加入数据集;划分数据集,得到A训练集和B训练集,进一步交叉划分A训练集,得到多个训练子集:训练得到多个孤立森林模型及其对应的异常度得分阈值;对B训练集中的样本投票得到每个样本的所得票数:获得预判决阈值以及B训练集中的每条样本的预判决结果;使用训练支持向量机SVM模型进行最终判决。本发明能够提高异常的检出率,降低误诊率。
技术领域
本发明涉及一种基于数据挖掘技术的唐氏综合症的筛查方法,更具体地说,本发明涉及一种基于孤立森林算法、投票机制和支持向量机SVM模型的唐氏综合症筛查方法。
背景技术
唐氏综合征又称先天愚型或21三体综合征,临床表现为严重的智力障碍,该病为21号染色体异常所导致。目前,临床中对治疗21三体综合征尚缺乏特效方法,我国目前主要采用检测孕妇血清中β-hCG、AFP、uE3水平,并结合孕妇临床资料进行风险值评估,再对高风险产妇进行侵入性诊断,并选择性流产来进行预防。
相关文献研究表明,目前我国产前筛查方案、正常值范围以及计算软件大多是基于国外统计数据,由于中国没有自己的产前筛查软件,大部分医院采用欧美设备,这些产前筛查风险评估软件不是针对黄种人的数据进行设定,所以应用到国内会出现准确率降低的问题。据统计唐氏综合征筛查的准确率仅为60%-75%,但实际在中国唐氏筛查准确率更低。而以绒毛膜穿刺或羊水穿刺进行诊断检查的方式始终存在一定侵入性,且造成孕妇流产风险较高,使用受到极大限制。
近年来,随着我国医疗信息系统的完善,各数据端口呈现出多样化且快速增长的发展趋势。为了有效利用医疗数据中存在的关系和规则,数据挖掘技术被应用到医疗卫生领域,在疾病的预防、诊断与治疗过程中发挥着重要的作用。
产前筛查数据是医疗数据中一类比较特殊的数据,具有严重的非均衡性。相关文献表明唐氏综合症的发病率为1/800-1/600,而医院的数据记录中唐氏儿的比例更小。与均衡数据分类问题相比,非均衡情况要困难和复杂的多。传统的机器学习方法针对均衡数据有较好的分类性能,往往偏重多数类,忽略少数类,而对非均衡数据分类效果并不好,难以应用于早、中孕期唐氏综合症的筛查。
孤立森林是一种适用于非均衡数据集的异常检测算法,这个算法本质上是一个无监督学习,不需要数据的类标,当异常数据量太少,只用正常样本构建孤立森林也是可行的,能有效处理高维数据和海量数据。目前,该算法多用于工业界,没有应用于产前诊断上的系统的改良的方法。
发明内容
本发明要解决的技术问题是提供一种基于孤立森林算法和投票机制的唐氏综合症筛查方法,该方法能够提高唐氏儿在中孕期的检出率,降低误诊率。
技术词语解释:
特征:孕妇中孕期唐氏筛查结果数据中的字段,即产检指标;
特征值:产检指标测试值:
样本:每个孕妇中孕期唐氏筛查结果称为一条样本,每条样本包含ns个特征值u1,u2,…ui,…,uns;
数据集:由多条样本组成的数据集;
为了解决上述技术问题,本发明的基于孤立森林算法和投票机制的唐氏综合症筛查方法包括下述步骤:
步骤一:数据预处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810592920.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多模态数据处理方法及系统
- 下一篇:一种基于计算机的骨质疏松筛查方法和装置