[发明专利]数据库驱动的原始测序数据的初步分析在审
| 申请号: | 201380065692.1 | 申请日: | 2013-10-11 |
| 公开(公告)号: | CN104919466A | 公开(公告)日: | 2015-09-16 |
| 发明(设计)人: | L·戈蒂埃;O·伦德 | 申请(专利权)人: | 丹麦技术大学 |
| 主分类号: | G06F19/22 | 分类号: | G06F19/22 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 徐金国 |
| 地址: | 丹麦*** | 国省代码: | 丹麦;DK |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据库 驱动 原始 序数 初步 分析 | ||
发明领域
本发明涉及一种用于识别生物序列的可能来源的方法。在进一步的方面,本发明涉及一种适合用于此目的的数据库。
发明背景
DNA测序是识别碱基(A、T、C或G)顺序的实验过程。截至今天,没有任何技术能够测序超过几千碱基的DNA的完整分子,大多数技术测序100和200个碱基之间。细菌基因组可容易地含有以几百万计的碱基。在过去几年中,测序成本显著降低从而使以诸如人类健康、食品质量控制或微生物群落研究为目的对样品中的DNA大规模测序越来越普遍。可以想象的是,全人类基因组测序将更频繁地用于治疗以尽可能地使治疗个性化,并且将执行常规测序来控制特定活生物体的存在或不存在。无论是作为最终目的本身或作为更复杂的数据分析或在采取更昂贵的分析之前对测序数据的质量控制步骤的基石,快速识别可能的起源DNA都正在迅速成为一种必然。
初级分析包括使从测序获得的相对短的序列(称为短读段)有意义,该相对短的序列或者是通过将它们与参考基因组比对(这需要参考物种的序列是已知的),或者是通过不使用模型来重构拼图(所谓的测序标签的从头组装-识别未知样品的含量将需要补充步骤)来获得的。与参考比对被认为是比从头组装在计算上更容易的任务。
在可负担非特异性或全基因组测序之前,首先精心地对特定区域测序和组装,识别感兴趣的预测区域。最简单的方法是通过找到由RNA翻译成蛋白质的起始密码子(ATG/AUG)和一个终止翻译的终止密码子(TAG/UAG、TAA/UAA、TGA/UGA)所限定的间隔,寻找开放阅读框架(ORF)。该ORF随后与所有已知基因名单比对。比对方法包括比对算法和程序如Smith和Waterman算法、BLAST算法和程序、SSAHA和BLAT。它们的目的是要在索引序列的数据库中找到优化比对,并通过对所有比对的得分排名找到最佳匹配以及从而找到查询序列的最可能的功能。为了功能注释的目的,通过建立“最佳-匹配基因的组”,或直系同源基因(COG)簇,越来越多的具有不同生物学功能的类似匹配导致这一原理的扩张。随着慢慢地可以利用更多的完整基因组,设计了Mummer算法来比对完整基因组对和可视化如何在遗传相关的物种之间比较整体的基因组结构。
由于目前在数据库中可用的序列数目,针对巨大的已知序列池的新序列的比对可能花费相对长的时间,BLAST在这个意义上是个突破,它在找到几乎最佳结果的同时加速了以前的算法。然而,在基于网络的搜索引擎可以几乎立即返回搜索结果的时代,针对所有已知序列的搜索仍相对缓慢。
Ning等,2001,(Genome:11:1725-1729),描述了一种算法SSAHA(通过哈希算法的序列搜索和比对),对含有几千兆碱基的DNA的数据库执行快速比对。SSAHA是一个比对器;因此,其任务是向每个全长查询序列报告它们在何处以及如何匹配参考序列集合中的每个条目。该SSAHA方法是在全长查询序列上寻找尽可能多的匹配。在数据库中的序列通过分解为k个连续碱基的连续k-字被预处理,然后使用哈希表来存储每个k-字每次出现的位置。在数据库中搜索查询序列是通过从哈希表取得对查询序列中每个k-字的“命中”,然后对结果进行分选而完成。该SSAHA算法用于高通量单核苷酸多态性检测和超大规模序列组装。在SSAHA中,每个k-字的存在和位置被存储在同一查找结构中,该结构加载到计算机系统的存储设备中。
已知的映射或比对算法和程序包括诸如Erland、Corona、BFAST、Bowtie、BWA、NovoAlign的方法。它们的目标是在已知的参考中找到读段位置。推而广之,可以将无法找到匹配的读段标记为并非来自该序列。这些程序和算法也存在搜索时间长的缺点,因为它们都评估查询集中的每个序列(即每一测序读段),并且因为它们试图找到对于它们所有的最佳比对(在用短读段进行时往往被称作比对)。有趣的是,因为上面的程序都使用启发式来以精确性换取速度,因此它们所找到的结果并不相同。
US 2006286566公开了使用k-mer检测突变的方法。该方法涉及通过比较靶核酸序列的一部分与第二序列节段,检测与靶核酸序列部分的匹配来检测靶核酸序列中的明显突变。
US2012000411中公开了能够表征样品内的有机体群体的系统和方法,这是基于对短序列信息串的匹配以从参考基因组数据库中识别基因组。该专利申请没有公开这样的方法,即其中在一个参考序列中的短串集合中搜索短串的存在和在参考序列中的位置的另一集合中搜索位置。
发明概述
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丹麦技术大学,未经丹麦技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380065692.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





