[发明专利]一种跨芯片平台的基因表达数据整合方法有效

专利信息
申请号: 201410044121.6 申请日: 2014-01-30
公开(公告)号: CN103745137B 公开(公告)日: 2017-03-15
发明(设计)人: 杭兴宜;陈胜 申请(专利权)人: 思博奥科生物信息科技(北京)有限公司
主分类号: G06F19/24 分类号: G06F19/24
代理公司: 北京汇知杰知识产权代理事务所(普通合伙)11587 代理人: 蔡伦,杨巍
地址: 100070 北京市丰台*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 芯片 平台 基因 表达 数据 整合 方法
【说明书】:

 

技术领域

发明属于生物信息技术领域,特别是基因表达数据分析领域。

背景技术

目前,微阵列芯片已经发展成为系统研究生物学问题的常用高通量实验技术,并且有不同类型的芯片平台及其制造厂商。多年来,已经积累了大量的芯片数据集如美国国立生物技术信息中心NCBI的GEO芯片数据库和欧洲生物信息研究所EBI的ArrayExpress芯片数据库。其中,NCBI GEO芯片数据已收集了大约1,008,760个样本共12,090个实验的数据,EBI ArrayExpress芯片数据已收集了43,124个实验共计1,223,250个微阵列芯片数据。由于芯片实验的价格相对昂贵,样本收集耗费工作量等客观原因,大多数科研项目仅会选择相对少量的样本进行实验甚至仅进行一个样本的检测,因此未能严格满足科学实验设计的要求,使得结果的可信度不足。所以,怎样合理充分的利用现有的数据资源,筛选与自己研究目相同相近的芯片数据进行整合分析研究成为一个亟需解决的问题。对于来自同一芯片平台的数据可以较直接地进行数据整合,但对于不同类型芯片间的数据整合目前还没有一个行之有效的方法。

已有基因表达数据整合的研究,其算法的步骤如下:1) 芯片数据预处理进行log2转换;2) 根据不同芯片平台间信号的最大值,确定两款芯片间的基因表达转化的比值;3) 整合两个芯片间共同存在的基因;4) 消除实验批次影响。上述算法中存在以下缺点:1) 芯片预处理方法对后续的分析至关重要,仅仅log2转化而忽略了采用了何种背景校正方法;2) 评估基因在两个平台间表达的线性关系时,仅仅考虑了芯片的最大表达值,而未考虑基因在不同区段间的线性比例不同;3) 没有对数据进行样本间中值和方差标准化,不利于数据间的比较。

鉴于上述原因,本领域中仍然需要克服上述一项或多项缺点的跨芯片平台的基因表达数据整合方法。

发明内容

在第一方面中,本发明提供一种跨芯片平台的基因表达数据整合方法。包括以下步骤:

步骤1:获得要整合的两个或多个基因芯片平台表达数据,对于每个基因芯片平台而言,表达数据为一个矩阵,矩阵的每一行表示一个基因,矩阵的每一列表示一个被检测的样本。

步骤2:对两个或多个基因芯片平台中共同存在基因,生成合并的基因表达矩阵,矩阵的每一行表示一个共同存在基因,矩阵的列由所述不同基因芯片平台检测的样本构成,每一列表示一个被检测的样本。

步骤3:基于基因在所述合并的基因表达矩阵中的表达模式相似性将基因分割为多个基因子集。

步骤4:对于步骤3得到基因子集,利用基因子集内基因在所述每个不同芯片平台的表达值,得出不同芯片平台的表达线性关系,利用所述关系将所述不同芯片平台的基因表达值标准化到同一变化范围,得到标准化后的基因表达矩阵。

在一个具体的实施方案中,本发明是这样实现的,主要包括如下流程:

步骤1:获得要整合的两个或多个基因芯片平台表达数据,对于每个基因芯片平台而言,表达数据为一个矩阵,矩阵的每一行表示一个基因,矩阵的每一列表示一个被检测的样本。

步骤2:对两个或多个基因芯片平台中共同存在的基因,生成合并的基因表达矩阵,矩阵的每一行表示一个共同存在基因,矩阵的列由所述不同基因芯片平台检测的样本构成,每一列表示一个被检测的样本。

步骤3:基于基因在所述合并的基因表达矩阵中的表达模式相似性将基因分割为m个基因子集。

步骤4:对于步骤3得到每个基因子集,计算基因子集内基因在所述每个不同芯片平台的表达值均值,利用下式得出不同芯片平台在该基因子集内的表达线性关系                                                ,其中s表示m个基因子集中的一个子集,exps1是由基因子集s内基因在芯片平台1中的表达值均值构成的数组,exps2指基因子集s内基因在芯片平台2中的表达值均值构成的数组,采用最小二乘法估计,,其中h为基因子集s包含的基因数;利用公式将所述不同芯片平台的基因表达值标准化到同一变化范围,得到标准化的基因表达矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思博奥科生物信息科技(北京)有限公司,未经思博奥科生物信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410044121.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top