[发明专利]用于从多个数据集导出和优化分类器的系统和方法在审
申请号: | 202080023314.7 | 申请日: | 2020-03-20 |
公开(公告)号: | CN113614831A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | M·B·梅休;L·布图罗维奇;T·E·斯威尼;R·吕蒂;P·卡特里 | 申请(专利权)人: | 英芙勒玛提克斯公司 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B45/00;G06N20/00 |
代理公司: | 深圳市百瑞专利商标事务所(普通合伙) 44240 | 代理人: | 金辉 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数据 导出 优化 分类 系统 方法 | ||
提供了使用多个模块进行对象临床状况评估的系统和方法。模块包括其相应特征值与和临床状况相关的表型的不存在、存在或阶段相关联的特征。对于多个模块中的至少第一个,获得具有特征值的第一数据集,该特征值是通过第一技术背景以转录组学、蛋白质组学或代谢组学形式从相应对象获得的。获得具有特征值的第二训练数据集,该特征值是从第二数据集的训练对象以与至少第一模块的第一数据集相同的形式通过第一技术背景以外的技术背景获得的。通过跨训练数据集共归一化特征值来去除数据集间批次效应,从而计算用于训练分类器以对测试对象进行临床状况评估的共归一化特征值。
相关申请的交叉引用
本申请要求于2019年3月22日提交的美国临时专利申请62/822,730的优先权,出于所有目的,通过引用将其全部内容并入本文。
技术领域
本公开涉及用于评估对象的临床状况的机器学习分类器的训练和实施。
背景技术
依赖转录组学和/或其他基于‘组学’的数据(例如基因组学、蛋白质组学、代谢组学、脂质组学、糖组学等)的生物建模方法可用于为医疗状况提供有意义且可操作的诊断和预后。例如,一些商业基因组诊断测试用于指导癌症治疗决策。Oncotype IQ测试套件(Genomic Health)是此类基于基因组的检测的示例,其可提供指导各种癌症治疗的诊断信息。例如,这些测试之一,用于乳腺癌的ONCOTYPE(Genomic Health)查询患者肿瘤中的21个基因组等位基因,以提供指导早期浸润性乳腺癌治疗的诊断信息,例如,通过提供可能获益于化疗和复发可能性的预后。参见例如Paik et al.,2004,N Engl J Med.351,pp.2817-2825和Paik et al.,2016,J Clin Oncol.24(23),pp.3726-3734。
高通量‘组学’技术,例如基因表达微阵列,通常用于发现较小的靶向生物标志物组套(panel)。但是,此类数据集的变量总是比样本多,因此容易出现不可重复的过拟合结果。参见例如Shi et al.,2008,BMC Bioinformatics,9(9),p.S10和Ioannidis et al.,2001,Nat Genet.29(3),pp.306–09。此外,为了增加统计功效,生物标志物的发现通常使用单一类型的测定法,例如单一类型的微阵列,在临床同质群组中进行。尽管这种同质设计确实产生了更大的统计功效,但结果不太可能在使用不同实验室技术的不同临床群组中保持真实。因此,任何源自高通量研究的新分类器都需要多次独立验证。
幸运的是,技术进步导致了许多不同类型的高通量生物数据分析的发展。这反过来又导致对许多不同医学疾病的生物学效应进行大型临床研究。大量基于组学的数据集可以在线找到,例如,在国家生物技术信息中心(NCBI)主持的基因表达综合数据库(GeneExpression Omnibus)(GEO)和欧洲生物信息学研究所(EMBL-EBI)主持的ArrayExpressArchive of Functional Genomic中。这些数据集和其他数据集(其中许多是公开可用的)是训练机器学习分类器以区分各种疾病状态和预期治疗结果的良好来源,特别是因为它们使用不同的临床群组和不同的实验室技术。理论上,可以使用这些不同的数据集训练更好的分类器,因为可以识别和忽略个体患者群组和检测技术的检测特异性和批次特异性效应,同时强调由潜在生物学引起的表型效应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英芙勒玛提克斯公司,未经英芙勒玛提克斯公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080023314.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置