[发明专利]一种数据共享策略下的多中心协同预后预测系统有效
申请号: | 201910629800.2 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110348241B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 李劲松;李谨;田雨;吴承凯;池胜强 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62;G16H10/60 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 共享 策略 中心 协同 预后 预测 系统 | ||
本发明公开了一种数据共享策略下的多中心协同预后预测系统。该系统能够在多个医疗机构中心下实现隐私保护的数据共享,从而为模型构建提供足够的数据。本发明采用相对于弱分类器能够获得更好预测结果的集成学习算法来构建系统。该系统在各个中心处理敏感的患者级数据,并同时构建出集成学习模型的子分类器,仅交换不太敏感的中间结果以构建完整的集成学习模型,从而保证了所提出的多中心模型与集中式模型具有相同甚至更优的结果。本发明多中心协同预后预测系统保护了患者的个人隐私,不需要在大型集中式数据源上运行算法模型,在实际临床应用中,为单个医疗机构中构建预测模型的样本太少提供了可靠的解决方案。
技术领域
本发明属于医疗领域及机器学习领域,尤其涉及一种数据共享策略下的多中心协同预后预测系统。
背景技术
预后预测在临床研究和实践中发挥着重要作用。基于单个医疗机构的电子健康记录(EHR)数据构建的预测模型可能缺少足够的统计效力和良好的泛化能力。因此,基于多个医疗机构中心电子健康记录数据协同分析的预后预测模型构建,可以用于提高用于模型训练的患者数量和覆盖面,丰富患者的预后特征,最终提高模型的预后预测的准确性和泛化能力。集成学习是一种在临床预后中应用非常广泛的算法,与逻辑回归和cox模型等线性模型不同,集成学习算法通常精度更好,且具有捕获变量间的非线性关系的能力,能很好地避免机器学习中常见的过拟合问题。因此,利用集成学习算法进行模型构建,为多中心下的协同预后预测系统的搭建提供理想的解决方案。另外,在进行多中心预后预测的同时,必须要保护患者的隐私。现有的多中心下隐私保护的集成学习训练模型大多是基于加密的方法,如利用加性同态加密等方法。Aslett等人提出基于完全同态加密的集成学习模型。Magkos等人利用基于同态加密的协议框架构建加密模块,从而训练出集成学习分类器。虽然这些加密方法可以防止信息泄漏与数据交换,但会显著影响计算和存储效率,可扩展性差,不适用于处理多中心下的大型临床数据。
发明内容
本发明的目的在于针对现有技术的不足,提供一种新型数据共享策略下的多中心协同预后预测系统。
本发明的目的是通过以下技术方案来实现的:一种数据共享策略下的多中心协同预后预测系统,该系统包括以下四个模块:
(1)数据获取模块:在各医疗机构中心分别收集患者预后预测所需要的各个变量的数据,作为该医疗机构中心的源数据集。
(2)数据匿名化模块:对每个医疗机构中心的源数据集以百分比p进行随机采样,对采样数据使用匿名化算法生成匿名化数据,剩余数据作为该医疗机构中心的本地训练集;来自每个医疗机构中心的匿名化数据由中央服务器收集合成增强数据集;将增强数据集分成两部分,即附加训练集和验证集;附加训练集用于回传并分配给每个医疗机构中心;验证集用于选择集成学习模型的超参数(hyper parameter)。
(3)模型训练模块:每个医疗机构中心在本地训练集成学习模型的子分类器,在训练过程中的训练数据包括该医疗机构中心的本地训练集和中央服务器回传给该医疗机构中心的附加训练集;这表明用于训练每个医疗机构中心子分类器的训练集不仅来自中心本身还来自其他中心的数据集,从而增加数据集的随机性,以提高集成学习模型的整体性能。在训练过程中,利用从增强数据集创建的验证集选择集成学习模型的超参数。
(4)预后模型应用模块:由中央服务器收集各医疗机构中心本地训练的子分类器构成完整的集成学习模型;将新的患者数据输入该集成学习模型执行预后预测。
进一步地,所述数据匿名化模块中,每个医疗机构中心源数据集的随机采样百分比p选择50%。将匿名化数据比例p固定在50%能够提升集成学习模型的预测效果,子分类器的直接集成或者数据的完全匿名化再集中训练都不能实现最佳结果;p的大小可以调整以适应复杂的决策支持场景,用于不同场景下的临床实践中患者的预后预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910629800.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复印机离线数据提取解析方法及装置
- 下一篇:业务请求处理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置