[发明专利]一种跨芯片平台的基因表达数据整合方法有效
| 申请号: | 201410044121.6 | 申请日: | 2014-01-30 |
| 公开(公告)号: | CN103745137B | 公开(公告)日: | 2017-03-15 |
| 发明(设计)人: | 杭兴宜;陈胜 | 申请(专利权)人: | 思博奥科生物信息科技(北京)有限公司 |
| 主分类号: | G06F19/24 | 分类号: | G06F19/24 |
| 代理公司: | 北京汇知杰知识产权代理事务所(普通合伙)11587 | 代理人: | 蔡伦,杨巍 |
| 地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明属于生物信息技术领域。本发明提供了一种跨多个不同芯片平台整合基因表达数据的方法,包括如下步骤多个芯片平台的基因表达谱标准化预处理;合并不同芯片平台中共同的基因表达数据;根据基因间在多个芯片平台的表达相似性将基因分为k个子集;最小二乘法计算每个基因子集内不同芯片平台的表达线性关系;利用公式将所述不同芯片平台的基因表达值标准化到同一变化范围,得到标准化的基因表达矩阵,其中符号含义如说明书中所定义。 | ||
| 搜索关键词: | 一种 芯片 平台 基因 表达 数据 整合 方法 | ||
【主权项】:
一种跨芯片平台的基因表达数据整合方法,所述方法包括如下步骤:步骤1:获得要整合的两个或多个基因芯片平台表达数据,对于每个基因芯片平台而言,表达数据为一个矩阵,矩阵的每一行表示一个基因,矩阵的每一列表示一个被检测的样本;步骤2:对所述两个或多个基因芯片平台中共同存在基因,生成合并的基因表达矩阵,矩阵的每一行表示一个共同存在基因,矩阵的列由所述两个或多个基因芯片平台检测的样本构成,每一列表示一个被检测的样本;步骤3:基于基因在所述合并的基因表达矩阵中的表达模式相似性将基因分割为M个基因子集;步骤4:对于步骤3得到每个基因子集,计算基因子集内基因在每个所述两个或多个基因芯片平台的表达值均值,利用下式得出所述两个或多个基因芯片平台中的两个在该基因子集内的表达线性关系exps1=as*exps2+bs,其中exps1>0同时exps2>0,s表示M个基因子集中的一个子集,exps1是由基因子集s内基因在基因芯片平台1中的表达值均值构成的数组,exps2指基因子集s内基因在基因芯片平台2中的表达值均值构成的数组,采用最小二乘法估计其中h为基因子集s包含的基因数;利用公式exp1=X*A.*exp2+X*B将所述两个基因芯片平台的基因表达值标准化到同一变化范围,得到标准化的基因表达矩阵,其中X为一个N行M列由0和1构成的矩阵,且如果基因n属于基因子集m,则Xnm=1;基因n不属于基因子集m,则Xnm=0,N为所述两个基因芯片平台共同存在基因的数目,M为基因子集的数目,n为所述两个基因芯片平台共同存在基因的编号,m为基因子集的编号,A和B为M行k列的矩阵,A和B矩阵的行元素分别为对应基因子集中计算的as和bs,“*”表示两个矩阵相乘,“.*”表示两个矩阵的点乘。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思博奥科生物信息科技(北京)有限公司,未经思博奥科生物信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410044121.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种由高压开关柜自主管理的操作手柄
- 下一篇:一种缓冲良好的开关柜
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





