[发明专利]用于数字基因表达谱的标签及其使用方法有效
| 申请号: | 201010299248.4 | 申请日: | 2010-09-21 |
| 公开(公告)号: | CN102409044A | 公开(公告)日: | 2012-04-11 |
| 发明(设计)人: | 章文蔚;张艳艳;田方;于竞;龚梅花 | 申请(专利权)人: | 深圳华大基因科技有限公司;深圳华大基因研究院 |
| 主分类号: | C12N15/11 | 分类号: | C12N15/11;C40B40/06;C40B50/06;C12Q1/68 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 罗菊华 |
| 地址: | 518083 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 数字 基因 表达 标签 及其 使用方法 | ||
技术领域
本发明涉及核酸测序技术领域,特别是数字基因表达谱技术领域。另外,本发明还涉及标签及其使用方法,以及利用标签技术构建数字基因表达谱文库的方法。本发明的方法特别适用于第二代测序技术,尤其是solexa测序技术。
背景技术
数字基因表达谱(Digital Gene Expression Profiling,DGE)利用新一代高通量测序技术和高性能计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。数字基因表达谱已被广泛应用于基础科学研究、医学研究和药物研发等领域。
利用高通量测序能够得到数百万个基因的特异标签,而数字的序列信号可以准确、特异地反映对应基因的真实表达情况。这种技术甚至可以精确地检测低至一两个拷贝的稀有转录本,并精确定量高达十万个拷贝的转录本的表达量变化。由于序列无需事先设计,DGE数据具有极佳的实时性,DGE可以检测到许多未曾注释的基因和基因组部位,为新基因的发现提供了良好的线索。这一技术进步允许科学家更加全面、准确地把握全基因组的基因表达情况。
目前illumina公司的Solexa测序平台提供的DGE文库制备方法有两种,分别为方法一[1]和方法二[2]。方法一,首先从总RNA样品中分离mRNA,将mRNA反转录成cDNA,通过NlaIII酶酶切cDNA链,产生特异性的粘性末端。连接反应过程中GEX接头1(也称为GEX Adapter 1)与带有粘性末端的目的片段进行连接。随后通过限制性内切酶MmeI酶切目的片段,该内切酶识别TCCRAC(N)20,切成3’末端序列为两个随机碱基的粘性末端,然后与GEX接头2(也称为GEX adapter2)进行连接反应。目的片段连接GEX接头2之后,通过特定的PCR引物对目的片段进行扩增,最后通过切胶回收目的片段文库,如图1(A)。方法二,首先从总RNA样品中分离mRNA,将mRNA反转录成cDNA,通过DpnII酶酶切cDNA链,产生特异性的粘性末端。连接反应过程中GEX接头1与带有粘性末端的目的片段进行连接。随后通过限制性内切酶MmeI酶切目的片段,该内切酶识别TCCRAC(N)20,切成3’末端序列为两个随机碱基的粘性末端,然后与GEX接头2进行连接反应。目的片段连接GEX接头2之后,通过特定的PCR引物对目的片段进行扩增,最后通过切胶回收目的片段文库,如图1(B)。
方法一和方法二这两种文库制备的方法不同之处:两种不同的建库方法使用了不同的限制性内切酶NlaIII和DpnII,这两种酶识别的剪切位点不一样:NlaIII酶切位点为5’-CATG-3’,DpnII酶切位点为5’-GATC-3’,酶切产生的目的片段的5’末端序列不同,所以需要它们的GEX接头1序列不同,最后构建所得文库所使用的测序引物也不一样。这两种文库制备的方法存在着一些缺陷,即只能对单个文库样品进行Solexa Single End(illumina)测序,不能将DGE文库样品混合测序。因为随着solexa测序通量的增加,1个测序泳道(也称为lane)所产出的数据远远大于目的片段所需求的数据,如果所构建的文库样品不能进行混合测序,将在一定程度上“浪费测序资源”和影响到测序通量。
发明内容
使用同样的RNA样品构建DGE文库,如果数据产出存在偏向性的问题,将会导致数据结果不可信,不能真实的反映样品的相关信息,同时也将导致实验结果重复性低。本发明基于目前illumina公司的solexa测序平台提供的DGE文库制备方法[1,2],将一段特定长度的核苷酸序列(即标签,也称为index)嵌入接头(也称为adapter)中,同时考虑PCR引物的扩增效率和数据产出的偏向性因素,筛选出合适的标签及含该标签序列的接头,并将该接头用于混合样品测序,确保数据的准确性和可重复性。
标签设计首先需要考虑标签序列之间的序列差异程度和碱基识别率。在标签混合量少于12个样品的情况下,必须考虑到混合后的标签上的每个碱基位点的GT含量。因为solexa测序过程中,碱基G和T的激发荧光一样,碱基A和C的激发光是一样的,因此必须考虑碱基“GT”含量与碱基“AC”含量的“平衡”,最后考虑数据产出的准确性和可重复性。在设计标签的过程中,本发明充分考虑到以上几个因素,同时避免了标签序列出现3或3个以上连续的碱基的出现,这样可以降低序列在合成过程中或测序过程中的错误率。标签序列本身嵌入接头中,也要尽可能的避免出现发夹结构或与测序引物及其反向互补序列相同的现象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技有限公司;深圳华大基因研究院,未经深圳华大基因科技有限公司;深圳华大基因研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010299248.4/2.html,转载请声明来源钻瓜专利网。





