[发明专利]并入数据分组的预测模型在审
申请号: | 202011104920.X | 申请日: | 2020-10-15 |
公开(公告)号: | CN112669908A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 王海天;夏小璇;徐仲锳 | 申请(专利权)人: | 香港中文大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16H50/30;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;洪欣 |
地址: | 中国香*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并入 数据 分组 预测 模型 | ||
Prism Vote方法是一种用于群体分层数据集的预测模型。具体来讲,Prism Vote利用主成分分析将训练样本划分为不同的分组,并基于不同的分组构建预测模型。对于测试样本,根据其群体分层结构基于贝叶斯方法计算其属于不同分组的概率,使用这个概率作为权重,将多个预测模型的预测结果进行加权求和,作为最终决策。
相关申请的交叉引用
本申请要求2019年10月15日提交的第62/915,459号美国临时申请的优先权。
背景技术
本公开内容总体上涉及结果的预测,并且特别涉及并入数据分组的预测模型。
准确的预测模型在多个领域都有重要的指导意义。例如,在医学领域中,可根据特定患者的癌症风险提出与癌症筛查有关的最佳建议(例如,实施筛查的频率和/或实施哪种筛查测试)。再者,如果患者患有特定疾病,则可以根据预测结果选择最优治疗方案。
传统上,使用诸如线性或逻辑回归的技术,可以基于一个或多个自变量生成预测。在传统方法中,研究团队设计一项研究来测试特定变量(或变量集)与特定结果相关的特定假设,然后收集足以检验该假设的样本数量,其中该数量是基于预期的效应大小、要控制的潜在混淆变量等预先确定的。
最近,机器学习使得个性化预测成为可能,特别是在面临大量的潜在相关变量时。机器学习分类器通常被给予大量“训练”样本,该数据集中变量和结果均已知。使用已知的训练程序来训练分类器,以优化目标函数。通常,机器学习分类器的训练是动态过程,随着新样本被添加到训练数据集中,此分类器会重新训练以利用新的信息。
发明内容
随着数据集样本增多,数据结构在样本中的差异性愈来愈明显。这种渐增的异构性会导致假设“整个训练数据集为同质性群体”的预测算法的准确性降低。例如,可能对部分群体的强预测变量对于另一部分样本几乎没有贡献。
所要求保护的发明的某些实施方案涉及适用于群体分层的预测的技术。利用主成分分析的方法将样本根据数据结构分组,并基于不同的分组构建预测模型。对于测试样本,根据其群体分层结构基于贝叶斯方法计算属于不同分组的概率,使用这个概率作为权重,将多个预测模型的预测结果进行加权求和,作为最终决策。
本文所述的技术可应用于存在样本组间差异的任何数据集。虽然本文所述的实例涉及使用基因组数据的疾病预测,但相似的技术也可应用于其它背景中。例如,在卫生保健领域,数据可以包括除基因组数据以外的生物标志物(例如血液化学数据;医学成像数据;生物计量参数,如心率或血压;家族病史;行为参数(如饮食或运动),以及预测可涉及诊断(例如,特定疾病的存在或不存在)、发展疾病的可能性、对特定疗程的预期反应等。本文所述的技术也可应用于其它领域,如金融(例如,预测未来投资回报或贷款违约的可能性)、保险(例如,预测被保险人未来索赔的可能价值)等。
以下详细描述以及附图将提供对所要求保护的发明的性质和优点的更好的理解。
附图说明
图1显示了根据本发明的实施方案的用于预测结果可能性的过程的流程图。
图2显示了在本发明的一些实施方案中可以与图1的过程一起使用的用于训练集分组的过程的流程图。
图3显示了在本发明的一些实施方案中可以与图1的过程一起使用的用于计算预测结果的过程的流程图。
图4A-4D显示了例示出将根据本发明的实施方案的过程应用于模拟数据集的结果的四幅图。
图5是例示出将根据本发明的实施方案的过程应用于模拟数据集的结果的条形图。
图6是显示使用根据本发明的实施方案的过程和全局逻辑回归分析的阿尔茨海默病数据的接收者操作特性(ROC)曲线的图。
图7是显示使用根据本发明的实施方案的过程和全局逻辑回归分析的精神分裂症数据的ROC曲线的图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港中文大学,未经香港中文大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011104920.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:指示数据存储的完成的令牌
- 下一篇:光纤包覆用高耐水性树脂组合物
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置