[发明专利]生物数据模式识别的多级体系构架在审
申请号: | 201680048013.3 | 申请日: | 2016-08-12 |
公开(公告)号: | CN107924430A | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | K·沃良斯基;N·迪米特罗娃 | 申请(专利权)人: | 皇家飞利浦有限公司 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 永新专利商标代理有限公司72002 | 代理人: | 王英,刘炳胜 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生物 数据 模式识别 多级 体系 构架 | ||
技术领域
本发明总体涉及生物信息学技术。更具体地,本文中公开的各种发明方法、系统和装置涉及生物数据中的模式识别。
背景技术
生物信息学技术提供了用于分析生物体的有效手段,并且是几个生物学领域的重要方面。特别是,生物信息学技术进程已经在基因组学以及包括癌症在内的疾病的研究和处置方面取得了重大进展。癌症以及其他基因组疾病的特征在于基因组结构变体的异基因模式和支持从正常细胞向肿瘤细胞的演化的基因表达。为了进行临床研究,从现有基因组数据中解读和表征独特模式的能力非常重要。可以提供关于基因组疾病的预后和风险评估的各种已知和可商购的基因组技术包括OncotypeDX,Genomic Grade Index,MammaPrint。
发明内容
以上讨论的当前可用的基因组技术的有效性相对有限,因为这些技术所采用的分析通常基于单组基因。特别是,对固定的单组基因的依赖使得这些方法停滞不前,因为它们不能解决诸如癌症的基因组疾病的不断演化的性质。因此,虽然这些方法的基因签名可能对检测疾病的特定亚型有效,但是由于疾病演化引起的改变的基因组特性,它们在检测新发现的亚型中可能是无效的。
本公开涉及用于检测生物数据中的模式的方法、系统和装置。本文中描述的示例性实施例可以提供对现有生物信息学技术的改进,因为它们可以适应新演化的疾病亚型的基因组特征。具体而言,实施例不需要依赖于基因或蛋白质组数据的单个固定的集合,而是可以被配置为考虑多种多样的生物数据,包括例如针对不同组的基因的拷贝数变异数据、基因表达数据和/或基因甲基化数据。这里,实施例可以被配置为采用多级架构,其可变地选择生物数据的不同子集,诸如针对基因和/或蛋白质组数据的各种集合的生物数据,例如作为预测特征,并且基于特征来检测汇编数据所用的样本的聚类。此外,实施例可以执行一个或多个另外的迭代级别的聚类,其中,预测特征包括隶属度值,所述隶属度值指示先前检测到的聚类内的样本的隶属度或隶属概率。通过使初步聚类基于生物数据的不同子集并且基于隶属度值制定更高级别聚类,实施例使得能够以实用的、准确的和高效的方式对大量各种生物数据进行流体评估,由此提供了一种适应基因组疾病的演化性质的有效手段。
一般而言,在一个方面中,一种用于检测至少一种生物体的成分中的模式的示例性方法包括从所述一个或多个生物体的成分的基因组或蛋白质组数据中的至少一种汇编第一特征数据集。另外,通过选择基因或蛋白质中的至少一个的不同子集并且根据所述第一特征数据集中与所选择的子集相对应的部分来识别聚类来确定所述成分的聚类。这里,聚类的确定包括计算成分的隶属度值,所述隶属度值指示在聚类内的隶属度。此外,执行额外的聚类确定过程以获得成分的最终聚类,其中,所述额外的聚类确定过程基于所述隶属度值来对成分进行聚类。如上所述,基因和/或蛋白质的不同子集的选择提高了该方法适应疾病演化引起的生物数据变化的能力。此外,不同子集的选择也提高了该方法对若干不同类型的生物数据进行聚类的能力。同时,基于隶属度值进行额外的聚类确定处理,在维持精度的同时大大提高了方法的效率,从而使该方法能够以实用的方式高效地处理大范围的生物数据。
根据一个实施例,额外的聚类确定过程的执行包括:从第二特征数据集识别成分的第二聚类所述从第二特征数据集包括第一隶属度值的至少一部分;并且计算成分的第二隶属度值,所述第二隶属度值指示在第二聚类内的隶属度。聚类确定过程的迭代可以改善最相关聚类的划定和检测。
在该实施例的一个版本中,额外的聚类确定过程的执行包括:选择第一隶属度值的不同子集;并且针对第一隶属度值的不同子集中的每个执行聚类确定子过程以获得第二聚类。因此,可以形成并评估基于第一隶属度值的不同子集的不同聚类。这一方面也可以提高该方法对生物数据变化的适应性。
此外,根据一个任选的特征,确定成分的聚类包括通过确定第一聚类的聚类之间的冗余度来形成第二特征数据集并且修剪第一聚类的具有高于阈值的相应冗余度的至少一个对应聚类的隶属度值。以这种方式评估冗余度可以提高该方法的效率和准确性,因为它可以从考虑中去除冗余聚类和相应的生物数据。
根据实施例的一个版本,额外的聚类确定过程的执行可被迭代以获得最终聚类,其中,执行的每次迭代包括从额外的特征数据集中识别成分的其他聚类,所述额外的特征数据集包括执行所述额外的聚类确定过程的先前运行所确定的先前隶属度值中的至少一部分。如上所述,聚类确定过程的迭代可以改善最相关聚类的划定和检测,而使用隶属度值可以提高该方法的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680048013.3/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置