[发明专利]一种测定待测基因组区域表达水平的方法及系统有效
| 申请号: | 201410096063.1 | 申请日: | 2014-03-14 |
| 公开(公告)号: | CN103984879B | 公开(公告)日: | 2017-03-29 |
| 发明(设计)人: | 杨力;朱闪闪;薛尉 | 申请(专利权)人: | 中国科学院上海生命科学研究院 |
| 主分类号: | G06F19/22 | 分类号: | G06F19/22;G06F19/18 |
| 代理公司: | 上海一平知识产权代理有限公司31266 | 代理人: | 马莉华,崔佳佳 |
| 地址: | 200031 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 测定 基因组 区域 表达 水平 方法 系统 | ||
技术领域
本发明涉及生物技术和生物信息学领域,具体涉及一种测定基因组区域表达水平的方法及系统。
背景技术
生命遗传信息的表达调控既是生物学研究的重点领域,也是揭示生物学各种生命现象的重要手段,尤其是随着21世纪大量物种基因组序列的测定以及大量测序技术推陈出新,使得基因表达定量方面的研究突飞猛进。测序技术也从传统Sanger测序技术,迅速发展为多种第二代高通量测序技术,如罗氏454、IlluminaHiSeq和AB公司的SOLiD,以及第三代的单分子实时DNA测序技术。其中,Sanger测序技术和罗氏454测序技术的测序读长在700-1000bp,Illumina测序技术的测序读长平均100bp左右,而单分子实时DNA测序技术的读长达到了2500-3000bp。
第二代测序技术也被称为新一代测序技术(NGS,Next Generation Sequencing),目前主要是Illumina公司出的HiSeq为主,它通过从物种中提取出的RNA转录本中随机进行的短片段测序(通常平均读长50bp、75bp、100bp)获得所测样本的整体表达谱。转录本是通过以连续性基因组为模板进行转录,然后剪切去除内含子,拼接剩余的外显子而形成的。测序过程中,如果一个转录本的丰度高,则测序后定位基因组区域的测序读段也就多,可以通过对定位到基因上的外显子区的测序读段数来估计基因表达水平。测序读段数除了与基因真实表达水平成正比,还与基因长度成正比,同时也与测序深度即测序实验中得到的总读段数正相关。为了保持对不同基因和不同实验间估计的基因表达值的可比性,Mortazavi等人提出了RPKM(Reads Per Kilo-base per Million reads)的概念,并成为RNA-seq应用早期估计基因表达水平和外显子表达水平的主要方法。RPKM是每百万读段中来自于某基因每千碱基长度的读段数,考虑了测序深度对读段计数的影响。
新一代测序技术的广泛普及,使得RNA测序(RNA-seq)已成为基因表达和转录组分析的重要手段。在NGS测序技术出现之前,不同基因表达水平测量的主要手段是基因芯片,利用在基因芯片上高密度集成特点的寡核苷酸,可以对不同组织或者不同发育阶段的特定基因表达差异和模式进行分析。但是与基因芯片数据相比,RNA-seq得到的是全基因组转录水平的数字化信号,具有高灵敏度、高分辨率、无饱和区等优势。
随着新一代测序技术的不断进步,产生的RNA-seq数据通量高、周期短和成本低,越来越多的人选择转录组测序作为科学研究的首选。RPKM在评估基因表达水平上的作用越来越显著,人们通过基因包含的外显子信息,和转录组测序数据在基因组上的定位信息,来计算出RPKM值。FPKM(fragments per kilobase of exon per million fragments mapped)也可以用来表示基因表达水平。FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是片段(fragments),而RPKM计算的是测序读段(reads)。目前cufflinks软件包中的cufflinks模块和cuffdiff模块及eXpress软件可以计算相关基因表达水平,具体计算过程为,首先统计出映射定位到基因组上的所有测序读段数目,然后统计出定位到各个基因外显子区间上的所有测序读段的数目,再计算出基因包含的外显子的长度,最后计算出基因的FPKM值。
但是,上述软件存在以下问题:
(1)目前大部分计算RPKM的程序,仅支持TopHat、Bowtie、bwa等少数常用的序列比对定位程序,不能支持所有的Illumina/Solexa测序平台的读段定位程序;
(2)在选择注释文件的时候,通常仅支持已知的基因注释文件,不能支持多种文件格式;
(3)在计算基因表达水平的时候,通常计算的是片段的表达水平值,而不是整个基因的表达水平值;
(4)在计算表达水平的时候,没有计算出单个外显子的表达水平;
(5)在计算表达水平的时候,不能够计算出基因组任意指定区间的表达水平;
(6)在计算表达水平的时候,通常仅支持计算一个转录组测序结果,不能够同时支持多个转录测序结果的基因表达水平的计算。
因此,本领域期待一种能够检测基因表达水平和基因组任意指定区间表达水平的方法。
发明内容
本发明的目的是提供一种检测基因组区域表达水平(RPKM)的方法和系统。
本发明的第一方面提供了一种测定待测基因组区域表达水平的方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海生命科学研究院,未经中国科学院上海生命科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410096063.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





