[发明专利]用于转录作图的基因识别标签(GIS)分析方法无效
申请号: | 200580038119.7 | 申请日: | 2005-08-17 |
公开(公告)号: | CN101056993A | 公开(公告)日: | 2007-10-17 |
发明(设计)人: | 宋永健铿;阮仪君 | 申请(专利权)人: | 科技研究局 |
主分类号: | C12Q1/68 | 分类号: | C12Q1/68;C12N15/00;C12N15/66 |
代理公司: | 苏州创元专利商标事务所有限公司 | 代理人: | 孙仿卫 |
地址: | 新加坡号07*** | 国省代码: | 新加坡;SG |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 转录 作图 基因 识别 标签 gis 分析 方法 | ||
发明领域
本发明主要涉及转录作图方法,尤其涉及一种从转录本到索引基因组序列的压缩后缀数组作图的转录作图方法。
背景
自从人类和其他几种生物体的基因组序列完成,人们的注意力就已经转移到了包括基因编码转录单位和调节基因表达水平的调节顺式作用元件在内的基因组功能元件的注释上来了。
现在关于基因组注释有三种主要方法。第一种是利用已有的转录数据来识别基因组中基因编码区域;第二种方法是利用计算算法从统计学的角度来预测这些基因和调节元件;第三种方法是比较其他脊椎动物基因组序列中的保守区域,该方法是基于基因组中的功能元件在进化过程中保守的观点。
尽管这些方法取得了相当大的成功,但是在测定人类基因组中所有功能元件的完整和内容精确方面还不尽人意,因此,现在仍然没有人类基因组的基因的完整列表,特别是,还没有识别所有的低冗余量基因和细胞特异性基因。许多基因模型认为目前的基因组注释,特别是关于转录从哪里起始到哪里结束的注释,是不正确的。
所有基因预测都得通过实验方法来验证,并且这些可能具有功能的基因都需要进行全长克隆以进一步做功能研究。因此,很明显,人类基因组注释领域面临很多挑战。
挑战之一是识别所有基因以及所有由人类和模型生物基因表达的转录本。在基因注释方面,cDNA的全长克隆和测序是最有决定性的,并且被认为是转录本分析的黄金标准。然而,当应用于许多物种和生物环境的大量转录本时,这种方法就显得费钱费时了。基于短标签的方法有很多,例如SAGE(基因表达连续分析法)和MPSS(大规模平行信号测序方法),这些基于短标签的方法是截取一段14-20bp的信号来代表每一个转录本。虽然这种方法在一个指定的转录组中能有效地对转录本进行标记和计数,但是这些标签的特异性经常不好并且有关转录本结构的信息量常常是不完整和模糊的。
通过截取全长cDNA克隆的相互连接的5’端和3’端形成一个双标签结构而获得的基因识别标签(GIS)的双标签序列,提供了实质的标签特异性。然而,可以应用于将GIS双标签序列定位到基因组中去的计算算法还不存在。过去,SAGE和MPSS标签运用一种两步法来分析。这些标签先与cDNA序列配对然后再与基因组配对。在这种方法中,那些不在cDNA数据库中的异常转录本不能被作图。两种最常用的序列比对工具:BLAST(基本的局部对比搜索工具)和BLAT(类似BLAST的对比工具)都不是为短标签序列设计的并且通常得到差的或错误的结果。
因此,这些明确证实了需要一种改进的转录作图方法。
发明内容
下文中描述了依照本发明的一个实施例的转录作图方法,并且该方法综合了基于短标签方法(SAGE和MPSS)的效率和全长cDNA(flcDNA)的精确性来全面描述转录组,这种方法也被称为是基因识别标签(GIS)分析方法。在这种方法中,起初截取全长cDNA克隆的5’和3’端来形成一个双标签结构,然后以一种高效的方式对这个双标签的双标签串联体进行测序,最后再定位到基因组中来确定这个基因的结构。在这个GIS分析法中,每读取一个序列显示代表15个转录本的大约15个双标签。这种方法与目前的全长cDNA克隆和测序的方法相比,在识别和定量全长转录本方面能提高至少30倍的效率,因为每一个GIS双标签序列都包含36个碱基对(bp)来代表一个转录本的始端和末端,所以与14-21bp的SAGE和MPSS标签相比,能显著地提高从标签到基因组的定位的特异性。另外,由于一个GIS双标签代表了一个转录本的5’和3’端,所以它提供的信息比SAGE和MPSS标签更多。
为了容纳GIS双标签数据,运用一个基于标签到基因组(SAT2G)的算法的后缀数组,将GIS双标签序列定位到基因组序列中去,这个基因组序列是通过一个高级数据结构压缩后缀数组(CSA)来建立和索引的。
因此,根据该发明的第一方面,公开了一种转录本作图方法,包含以下步骤:
从一个基因的转录本中获得一个5’末端标签和一个3’末端标签;
5’末端标签与一个基因组序列的至少一个部分配对,因此从那识别至少一个5’位点,至少一个5’位点中的每一个都有一段序列能与5’末端标签配对;
3’末端标签与一个基因组序列的至少一个部分配对,因此从那识别至少一个3’位点,至少一个5’位点中的每一个都有一段序列能与5’末端标签配对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科技研究局,未经科技研究局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200580038119.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:制冷剂
- 下一篇:一种用于通信设备的故障分析方法及装置