[发明专利]一种基于迁移学习的医学数据处理和系统有效
申请号: | 201810186122.2 | 申请日: | 2018-03-07 |
公开(公告)号: | CN108520780B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 陈旭;胡满满;商显震;孙毓忠 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/35;G06F40/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 医学 数据处理 系统 | ||
本发明公开了一种基于迁移学习的医学数据处理和系统,包括:获取医学领域外的本文数据,训练得到文本分类模型;获取医学领域内的病例集合,其中病例集合包含症状和标签,标签为症状对应的病症;使用文本分类模型提取症状的特征向量作为症状向量,并根据症状对应的病症类型,将标签转化为标签向量;通过集合症状向量及其对应的标签向量,构建多标签训练样本集,根据多标签训练样本集,训练得到多标签分类模型;将待分析的医学样本输入至多标签分类模型,判断医学样本属于每一种标签的概率值,并根据概率值得到分析标签集合,作为医学样本的分析结果。由此本发明通过迁移学习避免了人工选择特征的缺点,提高了基于门诊病例的医学疾病预测准确率。
技术领域
本发明涉及医学疾病分析及机器学习领域,特别涉及一种基于迁移学习的医学数据处理和系统。
背景技术
随着人工智能和机器学习的不断发展和广泛应用,临床辅助决策支持系统被提出用于,根据患者信息,依靠机器学习分析模型对病情进行预测分析,可以帮助医生在临床分析决策过程中更高效、更快捷地运用复杂医学知识处理各种医学问题。
医学疾病预测模型是智能辅助分析系统的核心挑战之一,可分为基于规则的专家模型、基于统计知识的统计分析模型和基于机器学习的预测模型。
论文(Shortliffe E.H.Computer-based medical consultations:MYCIN.Elsevier.1976,85(6):iii.)提出了基于规则的辅助医疗分析系统MYCIN,总结了400多种体现专家分析疾病的规则,用于鉴别细菌感染并提供治疗方案,虽然具有一定的效果,但是基于规则的专家模型需要大量的专家构建规则库,维护成本高且拓展性不好。
IBM Watson医疗辅助分析系统通过对医学文献进行统计分析以帮助医生进行决策,统计学习知识被运用到医学数据处理中,从而解决专家系统存在的问题。但是基于统计知识的统计分析模型依赖大量的数据支持,导致模型在某些数据量小的疾病上效果不理想。
基于机器学习的预测模型将疾病分析看作是分类预测问题,提高了医学疾病分析模型的准确度,另一方面,基于大量样本的深度神经网络(Deep Neural Networks,DNN)的提出更加提高了某些疾病的预测准确率。然而,一些医学疾病具有样本数量少的特点,即疾病的病例数量相对很少,或者收集非常困难,以至于很难训练出理想的机器学习模型。
某些医学疾病具有收集困难和发病率小的问题,导致很难有大量的样本用于深度神经网络训练,从而很难训练得到本领域内具有很强分析性能的模型。近些年,深度卷积神经网络模型(Deep Convolutional Neural Network,DCNN)在图像分类、人脸识别取得了十分高的精确度,其中一个重要的手段就是迁移学习,目的是将在源领域数据集上训练的模型运用到新的目标领域中,从而提高目标领域任务的准确度。迁移学习通过将源领域训练过程中产生的知识(模型,参数等)保存下来,从而将源领域知识运用到目标领域任务中。
发明内容
本发明针对目前医学疾病分析模型存在的样本不足特点,设计了一种基于迁移学习的医学数据处理和系统,包括构建基于迁移学习的医学疾病分析模型,首先在大规模源数据集上训练具有多标签的文本分类模型,将模型作为特征提取器用于医学病例的文本语义特征提取,从而构建具有源领域语义特征的训练集,进而根据训练集训练多标签分类器,实现目标领域的医学疾病分析预测。
具体地说,本发明公开了一种基于迁移学习的医学数据处理,其中包括:
步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;
步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;
步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810186122.2/2.html,转载请声明来源钻瓜专利网。