[发明专利]碱基序列对准系统及方法在审

专利信息
申请号: 201410276504.6 申请日: 2014-06-19
公开(公告)号: CN104239749A 公开(公告)日: 2014-12-24
发明(设计)人: 朴旻壻 申请(专利权)人: 三星SDS株式会社
主分类号: G06F19/18 分类号: G06F19/18
代理公司: 北京铭硕知识产权代理有限公司 11286 代理人: 孙昌浩;韩芳
地址: 韩国*** 国省代码: 韩国;KR
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 碱基 序列 对准 系统 方法
【说明书】:

技术领域

发明的实施例涉及一种用于分析基因组的碱基序列的技术。

背景技术

用于生产大容量的短序列的下一代测序(NGS:Next Generation Sequencing)因其低廉的费用和快速的数据生成而正在迅速地取代传统的桑格(Sanger)测序方式。并且,聚焦于准确率而开发出多种多样的NGS序列对准程序。

序列重组的第一个步骤为通过碱基序列对准(alignment)算法而将短片段(read)映射(mapping)于参考序列的准确的位置。为此,普通的现有碱基序列对准算法首先将从短片段中选取的预定长度的种子(seed)映射于参考序列,然后在映射的位置上对其余短片段进行全局对准(Global Alignment)。

对于这种现有技术中的序列对准算法而言,需要在利用种子获得的参考序列内的所有候选位置上执行全局对准。然而全局对准的复杂度为O(N2),其为执行时间很长的作业,因此如果按照现有技术,尤其随着候选位置的增加,碱基序列对准时间按照几何级数增长。

发明内容

本发明的实施例的目的在于当进行利用从测序仪接收的短片段的序列对准时,通过考虑由短片段获得的各个种子在参考序列内的映射位置以及允许的误差值而减少全局对准的执行次数,从而提高碱基序列分析的速度和准确率。

根据本发明的一个实施例的一种碱基序列对准系统,包括:种子生成单元,由所接收的短片段(read)生成多个种子(seed);筛选单元,将生成的所述种子映射于参考序列(reference sequence),并通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子;对准单元,在被选择的所述种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准(global alignment)。

所述筛选单元可将映射于所述参考序列的种子当中的、种子之间的间隔之和在设定值以下的种子选择为所述全局对准对象种子。

所述筛选单元可将映射于所述参考序列的种子当中的、满足如下数学式的种子选择为所述全局对准对象种子:

A≤MaxError+B

其中,A为被选择的各个种子在所述参考序列内的间隔之和,B为被选择的各个种子在所述短片段内的间隔之和,MaxError为最大误差允许值。

所述系统还可以包括:精确匹配单元,执行所接收的短片段的针对所述参考序列的精确匹配;误差个数估计单元,针对在所述精确匹配单元中没有得到精确匹配的短片段,估计出将相关短片段对准于所述参考序列时的误差个数,其中,所述种子生成单元可在估计出的所述误差个数在设定的最大误差允许值以下时由所述短片段生成多个种子。

另一方面,根据本发明的一个实施例的一种碱基序列对准方法,包括如下步骤:在种子生成单元中,由所接收的短片段(read)生成多个种子(seed);在筛选单元中,将生成的所述种子映射于参考序列(reference sequence),并通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子;在对准单元中,在被选择的所述种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准(global alignment)。

在选择所述全局对准对象种子的步骤中,可将映射于所述参考序列的种子当中的、种子之间的间隔之和在设定值以下的种子选择为所述全局对准对象种子。

在选择所述全局对准对象种子的步骤中,可将映射于所述参考序列的种子当中的、满足如下数学式的种子选择为所述全局对准对象种子:

A≤MaxError+B

其中,A为被选择的各个种子在所述参考序列内的间隔之和,B为被选择的各个种子在所述短片段内的间隔之和,MaxError为最大误差允许值。

在所述方法中,在执行生成所述种子的步骤之前,还可以包括如下步骤:在精确匹配单元中,执行所接收的短片段的针对所述参考序列的精确匹配;在误差个数估计单元中,针对在执行所述精确匹配的步骤中没有得到精确匹配的短片段,估计出将相关短片段对准于所述参考序列时的误差个数,其中,在生成所述种子的步骤中,可在估计出的所述误差个数在设定的最大误差允许值以下时由所述短片段生成多个种子。

根据本发明的实施例,不是在由短片段获得的各个种子的参考序列内的所有映射位置上执行全局对准,而是考虑各个种子在参考序列内的映射位置以及允许的误差值而只在判断为合适的位置上执行全局对准,从而具有可提高碱基序列分析速度的优点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星SDS株式会社,未经三星SDS株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410276504.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top