[发明专利]DNA测序仪短序列回贴基因组方法无效
| 申请号: | 201010519782.1 | 申请日: | 2010-10-19 |
| 公开(公告)号: | CN102453751A | 公开(公告)日: | 2012-05-16 |
| 发明(设计)人: | 马斌 | 申请(专利权)人: | 鼎生科技(北京)有限公司 |
| 主分类号: | C12Q1/68 | 分类号: | C12Q1/68;G06F19/10 |
| 代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 闫强 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | dna 测序仪短 序列 基因组 方法 | ||
技术领域
本发明涉及对DNA测序数据的处理方法,特别是测序的结果——短序列回帖基因组的处理方法。
背景技术
DNA测序技术,即测定DNA序列的技术。在分子生物学研究中,DNA的序列分析是进一步研究和改造目的基因的基础。用于测序的技术主要有Sanger等(1977)发明的双脱氧链末端终止法和Maxam和Gilbert(1977)发明的化学降解法。这二种方法在原理上差异很大,但都是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,产生A,T,C,G四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得DNA序列。
近年来兴起的第二代核酸序列测序技术(next generation sequencing technology),与传统桑格(Sanger)测序技术相比,具有高通量、高准确性和低运行成本等突出优势,是测序技术的一次革命性的改变,催生了众多生物学前沿领域的研究,应用前景十分广阔。其中Illumina公司的GA测序仪以及Applied Biology公司的SOLiD测序仪是两种目前在市场上占主流的测序仪。由于这两种测序仪产生的核酸序列具有序列比较短(15bp-100bp)的特点,因此从测序仪产生的数据到运用到众多的生物应用的数据分析流程中一个必不可少的环节就是短序列回贴基因组,即将测序仪产生的高通量的短序列与基因组长序列比较,在基因组序列上找到一个最相似的片段与之相匹配,并输出匹配的位置。短序列回贴基因组的本质就是一个短序列与长序列比对问题。这是生物信息学中最基本、最常用的算法,几乎所有的生物信息处理任务都可能需要使用到它。随着可供比较分析的生物序列数据量呈现爆炸性增长,不断涌现的序列比较的各种新需求对处理序列比对的方法提出新的挑战。
上世纪70年代到80年代,以Neeleman-Wunsch算法和Smith-Waterman算法为代表的动态规划比对算法只适用于小数量的生物序列比较。从80年代到90年代,以FASTA和BLAST为代表的算法,通过对生物序列做索引,快速的过滤掉非常不相似的生物序列,然后再对剩下来为数不多的有可能匹配的候选位置进行更为精确的检查(采用精确的算法,如上述的动态规划算法),就能在保证一定精确度的情况下大大提高速度。因此对生物序列做索引成为在有限的时间内利用有限的资源完成大规模生物序列比较的必不可少的一步。做索引的方式是影响序列比较的效率和精度的关键所在,而FASTA和BLAST的索引方式是以牺牲精度为代价来换取速度的启发式方法。从上世纪90年代末开始,人们开始针对这种索引方式进行改进,希望能以BLAST的速度,尽量提高比对的精度,甚至逼近动态规划算法的比对精度。以PatternHunter为代表的算法开创了以“离散种子”(spaced seed)为核心的索引方法的研究。无论是BLAST还是PatternHunter,其索引方式,都是对序列的每一个位置建索引,存储于内存或者外部文件中。而Illumina Genome Analyzer与AB SOLiD这两种测序仪单位时间内产生出前所未有的巨大的数据量(一次实验,在两天内就产生1.5G的数据),使得如果利用现有的序列比较的方法来进行短序列回贴基因组,完成一次实验产生的数据的回贴就需要几个月的时间,并且数倍于短序列数量的索引数目使得现有的计算机内存资源无法支撑。因此短序列回贴基因组这个环节成为这两种核酸序列测序仪数据分析流程中的一个巨大的瓶颈。
文献(H.Lin,Z.Zhang,M.Zhang,B.Ma,and M.Li.ZOOM!Zillions of Oligos Mapped.Bioinformatics 24(21):2431-2437.2008)中给出了一种利用若干离散种子达到100%查全率的短序列回帖基因组的方法,但仅给出了需要离散种子数量的证明,没有给出具体的离散种子组合。
发明内容
为了提高短序列回帖基因组的效率,本发明提供了一种DNA测序仪短序列回帖基因组的方法,通过给出优化的全长离散种子组合,实现本发明的目的。
本发明的技术方案如下:
DNA测序仪短序列回贴基因组方法,包括如下步骤:
用全长离散种子组合对DNA测序仪产生的短序列和基因组做索引,以筛选出可能回贴的位置集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎生科技(北京)有限公司,未经鼎生科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010519782.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:从羰基合成废铑催化剂废液中回收铑的方法
- 下一篇:涡喷消防车电控操纵平台装置





