[发明专利]碱基序列对准系统及方法在审
申请号: | 201410276504.6 | 申请日: | 2014-06-19 |
公开(公告)号: | CN104239749A | 公开(公告)日: | 2014-12-24 |
发明(设计)人: | 朴旻壻 | 申请(专利权)人: | 三星SDS株式会社 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 孙昌浩;韩芳 |
地址: | 韩国*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 碱基 序列 对准 系统 方法 | ||
技术领域
本发明的实施例涉及一种用于分析基因组的碱基序列的技术。
背景技术
用于生产大容量的短序列的下一代测序(NGS:Next Generation Sequencing)因其低廉的费用和快速的数据生成而正在迅速地取代传统的桑格(Sanger)测序方式。并且,聚焦于准确率而开发出多种多样的NGS序列对准程序。
序列重组的第一个步骤为通过碱基序列对准(alignment)算法而将短片段(read)映射(mapping)于参考序列的准确的位置。为此,普通的现有碱基序列对准算法首先将从短片段中选取的预定长度的种子(seed)映射于参考序列,然后在映射的位置上对其余短片段进行全局对准(Global Alignment)。
对于这种现有技术中的序列对准算法而言,需要在利用种子获得的参考序列内的所有候选位置上执行全局对准。然而全局对准的复杂度为O(N2),其为执行时间很长的作业,因此如果按照现有技术,尤其随着候选位置的增加,碱基序列对准时间按照几何级数增长。
发明内容
本发明的实施例的目的在于当进行利用从测序仪接收的短片段的序列对准时,通过考虑由短片段获得的各个种子在参考序列内的映射位置以及允许的误差值而减少全局对准的执行次数,从而提高碱基序列分析的速度和准确率。
根据本发明的一个实施例的一种碱基序列对准系统,包括:种子生成单元,由所接收的短片段(read)生成多个种子(seed);筛选单元,将生成的所述种子映射于参考序列(reference sequence),并通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子;对准单元,在被选择的所述种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准(global alignment)。
所述筛选单元可将映射于所述参考序列的种子当中的、种子之间的间隔之和在设定值以下的种子选择为所述全局对准对象种子。
所述筛选单元可将映射于所述参考序列的种子当中的、满足如下数学式的种子选择为所述全局对准对象种子:
A≤MaxError+B
其中,A为被选择的各个种子在所述参考序列内的间隔之和,B为被选择的各个种子在所述短片段内的间隔之和,MaxError为最大误差允许值。
所述系统还可以包括:精确匹配单元,执行所接收的短片段的针对所述参考序列的精确匹配;误差个数估计单元,针对在所述精确匹配单元中没有得到精确匹配的短片段,估计出将相关短片段对准于所述参考序列时的误差个数,其中,所述种子生成单元可在估计出的所述误差个数在设定的最大误差允许值以下时由所述短片段生成多个种子。
另一方面,根据本发明的一个实施例的一种碱基序列对准方法,包括如下步骤:在种子生成单元中,由所接收的短片段(read)生成多个种子(seed);在筛选单元中,将生成的所述种子映射于参考序列(reference sequence),并通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子;在对准单元中,在被选择的所述种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准(global alignment)。
在选择所述全局对准对象种子的步骤中,可将映射于所述参考序列的种子当中的、种子之间的间隔之和在设定值以下的种子选择为所述全局对准对象种子。
在选择所述全局对准对象种子的步骤中,可将映射于所述参考序列的种子当中的、满足如下数学式的种子选择为所述全局对准对象种子:
A≤MaxError+B
其中,A为被选择的各个种子在所述参考序列内的间隔之和,B为被选择的各个种子在所述短片段内的间隔之和,MaxError为最大误差允许值。
在所述方法中,在执行生成所述种子的步骤之前,还可以包括如下步骤:在精确匹配单元中,执行所接收的短片段的针对所述参考序列的精确匹配;在误差个数估计单元中,针对在执行所述精确匹配的步骤中没有得到精确匹配的短片段,估计出将相关短片段对准于所述参考序列时的误差个数,其中,在生成所述种子的步骤中,可在估计出的所述误差个数在设定的最大误差允许值以下时由所述短片段生成多个种子。
根据本发明的实施例,不是在由短片段获得的各个种子的参考序列内的所有映射位置上执行全局对准,而是考虑各个种子在参考序列内的映射位置以及允许的误差值而只在判断为合适的位置上执行全局对准,从而具有可提高碱基序列分析速度的优点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星SDS株式会社,未经三星SDS株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410276504.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种竹片烘干双层隧道窑
- 下一篇:高纯矿物颗粒干燥装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用