[发明专利]一种大样本高通量生物数据关联分析方法有效
| 申请号: | 201510353906.6 | 申请日: | 2015-06-24 |
| 公开(公告)号: | CN104978497B | 公开(公告)日: | 2019-01-29 |
| 发明(设计)人: | 李其刚;孔庆鹏 | 申请(专利权)人: | 中国科学院昆明动物研究所 |
| 主分类号: | G16B5/00 | 分类号: | G16B5/00 |
| 代理公司: | 四川君士达律师事务所 51216 | 代理人: | 芶忠义 |
| 地址: | 650223 *** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 样本 通量 生物 数据 关联 分析 方法 | ||
本发明提供一种大样本高通量生物数据关联分析方法,包括:统计样本内部变量间比较结果的频数表、应用对数线性模型计算似然值、排序似然值得到跟表型差异最相关的变量的步骤。本发明公开的算法首先比较单个样本内基因间表达量,利用对数线性模型计算每个基因差异表达的显著性得分和差异程度,显著性得分越高的基因差异表达越显著。此计算方法不需要样本间的均一化处理,不需要假设基因表达的数值分布,因此很自然地避免了均一化算法和假设分布可能带来的分析偏差。而且,本算法通过样本内比较简单巧妙地将其它基因的表达信息纳入分析,但却并未陷入高维数据分析的“维度灾难”中。
技术领域
本发明涉及生物信息技术领域,尤其涉及一种大样本高通量生物数据关联分析方法。
背景技术
随着高通量技术的发展和应用,积累了大量的高通量数据。整合分析这些大数据有助于发现事物运行的普遍规律。高通量生物数据关联分析是指从众多的分子变量(例如基因,突变,甲基化位点等)中鉴定出影响特定表型分子变异。例如,基因差异表达分析是指根据一系列的基因表达数据,从全基因组的数万个基因中挑选出与对照样本相比存在表达差异的基因,是发现疾病等表型相关基因的重要手段。现有的方法(传统思路)主要是逐个分析每个基因本身的表达量变化,表达量偏离假设分布的基因就被认为是差异表达基因。但是在分析大规模的高度异质样本(比如肿瘤的全基因组表达谱样本)时,这种方法具有如下的缺点:
首先,传统思路需要通过均一化处理观测值得到样本间可比较的表示基因表达水平的数值。由于大样本内部的数据变异情况非常复杂,准确地均一化处理大量高度异质的高维样本是非常困难的,甚至是不可行的;很显然,均一化处理带来的偏差会影响差异表达分析的结果。
其次,传统思路需要假设基因表达水平的数值分布,比如正态分布,Student t分布,泊松分布,负二项分布等。很明显,计算结果会受到所选分布的影响;由于大样本数据的高度异质性,这些分布也难准确地描述基因表达水平;由于全基因组的基因数量巨大(2万左右)且基因表达的模式不同,能否应用一种分布到所有基因也值得商榷。
最后,传统思路在分析某个基因时并未考虑其它基因的表达情况,即缺失了基因表达的背景信息。这不符合生物体内的基因间存在普遍的相互影响或调控这一事实,也不符合高通量技术同时测量数万个基因表达情况的观测特点。这可能也会影响关键的、重要的差异表达基因的发现。
发明内容
本发明的目的在于解决上述现有技术存在的缺陷,提供一种能够避免均一化算法和假设分布可能带来分析偏差的大样本高通量生物数据关联分析方法。
一种大样本高通量生物数据关联分析方法,包括:统计样本内部变量间比较结果的频数表、应用对数线性模型计算似然值、排序似然值得到跟表型差异最相关的变量的步骤。
进一步地,如上所述的一种大样本高通量生物数据关联分析方法,所述统计样本内变量间比较结果的频数表的步骤包括:对于基因i,首先在每个样本内比较基因i和其它基因的大小关系,然后根据R、C、S、G 4个变量计算频数,得到包含四个变量的频数表,其中,R表示大小关系,C表示肿瘤类型,S表示正常还是肿瘤样本,G表示同基因i比较的基因。
进一步地,如上所述的一种大样本高通量生物数据关联分析方法,所述应用对数线性模型计算似然值的步骤包括:应用对数线性模型到基因i的频数表计算模型(S+R)*C*G的似然值。
进一步地,如上所述的一种大样本高通量生物数据关联分析方法,所述根据排序似然值得到跟表型差异最相关的变量的步骤包括:所有的基因重复前两个步骤,降序排列所有基因的似然值得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院昆明动物研究所,未经中国科学院昆明动物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510353906.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防止产生死角余煤的圆形料场
- 下一篇:一种自动盒饭机取货装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





