[发明专利]一种测序序列映射方法及系统有效
申请号: | 201310282312.1 | 申请日: | 2013-07-05 |
公开(公告)号: | CN103336916A | 公开(公告)日: | 2013-10-02 |
发明(设计)人: | 李雷;王安琪;陈士剑 | 申请(专利权)人: | 中国科学院数学与系统科学研究院 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 序列 映射 方法 系统 | ||
技术领域
本发明适用于基因工程技术领域,尤其涉及一种基于高通量测序技术的测序序列快速映射及有关定量分析的方法和系统。
背景技术
高通量DNA测序是实现个体化医疗和开展现代分子生物学研究的核心技术。在个体化医疗中,高通量DNA测序可以获得一个人的全基因组、表达组、以及各种调控分子的定性和定量信息,可以综合利用遗传序列中的多态和变异信息、功能性基因组学中的表达信息,从分子水平上实现疾病诊断,患病风险预测,从而更好地进行治疗或预防。特别地,我们可以根据个人的遗传序列和功能性基因组信息预测药物对于个体的影响程度,并基于此设计最佳的治疗方案。
除了人类健康,农业、环境、能源等对人类生活至关重要的发展都离不开我们对生物学在分子层面上的全面认识。而分子生物学研究的一个主要手段就是DNA测序。
在对基因组进行测序时,基因组被切割成很多小片段,通过复制、碱基辨识等步骤,我们可以获得这些短序列的碱基序列(测序序列)。然而在切割基因组后,我们无法知道各个测序序列的相对位置。如果没有参考基因组,就只能通过装配技术来得到所测的基因组。如果有一个已被测得的基因组作为参照,这就是一个相对容易的重测序问题。现在我们在生物学研究、个体化医疗中面临的测序问题,绝大部分是或可以近似转化为重测序问题。在重测序问题中,我们要寻找每一个测序序列在参考基因组上的位置或坐标,我们称之为测序序列映射。
下面列出DNA重测序可以测量的分子生物信息的若干主要类型。
DNA多态——通过将基因组测序序列与参考基因组序列进行比较探寻两个基因组之间存在的单点多态(SNP)以及插入/删失多态;
甲基化——通过将基因组测序序列映射至参考基因组序列,来探寻原基因组中的甲基化位点;
mRNA表达谱——通过将转录组的测序序列映射至参考基因组序列来测量不同种类的RNA的含量;
可变剪切——通过将转录组的测序序列映射至参考基因组序列来探测mRNA可变剪切的模式;
非编码RNA丰度——通过将转录组的测序序列映射至参考基因组序列来测量不同种类的非编码RNA的含量,如microRNA和lncRNAs;
CHIP-seq——通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,将这些DNA片段的高通量测序数据映射至参考基因组序列上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。
DNA重测序的用途广泛,不仅限于以上所列。相应地,测序序列映射也就成为个体化医疗以及分子生物学研究中必不可少的、日常的计算分析工作。虽然映射的概念很清楚,但是高通量的新一代测序技术可以在短时间内产生海量的测序序列,如何能够运用相对通用的计算机设备高速地完成映射工作,是一个非常有挑战的计算生物问题。
除了映射速度,正确评估一个映射方法和系统的映射率和准确率是测序数据下游分析的基石。映射率是指能够映射到参考基因组上的序列比例,而准确率是指可映射序列中的正确映射的比例。有时我们也用另一对指标灵敏度和特异度来代替映射率和准确率。在很多情况下,由于技术的局限性,基于特定的数据,我们往往不能同时提高灵敏度和特异度,这时,如何在灵敏度和特异度之间找到合适的平衡也是一个具有高度挑战的问题。
我们的发明的目的就是设计一个计算系统,具有以下功能:
1.它可以高速地映射重测序序列;
2.对于给定的数据特征如读长和质量值,和一组系统参数数值,它可以评估映射的灵敏度和特异度;
3.对于特定的生物和医学问题,基于给定的数据特征如读长和质量值,设计系统参数数值,以达到合理的映射的灵敏度和特异度。如有余地,还可以通过参数设计优化映射速度;
4.这个系统是模块化的。
5.对于不同的模块,用不同的硬件和软件实现。其中的硬件可以是通用的CPU,RAM,硬盘存储器的组合,如工作站、服务器,也可以包括GPU、FPGA(可重构计算单元)、DSP等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院数学与系统科学研究院,未经中国科学院数学与系统科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310282312.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于大型行走机构的可调节抗剪结构
- 下一篇:预充冲管注射器回血测试仪
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用