[发明专利]一种对基因序列片段进行拼接的系统和方法有效

专利信息
申请号: 201210291770.7 申请日: 2012-08-16
公开(公告)号: CN102867134A 公开(公告)日: 2013-01-09
发明(设计)人: 盛司潼 申请(专利权)人: 盛司潼
主分类号: G06F19/18 分类号: G06F19/18
代理公司: 暂无信息 代理人: 暂无信息
地址: 518057 广东省深圳市南*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基因 序列 片段 进行 拼接 系统 方法
【说明书】:

技术领域

发明涉及生物信息处理领域,更具体地说,涉及一种对基因序列片段进行拼接的系统和方法。 

背景技术

对基因序列片段进行拼接是将小的序列片段进行比对合并成大的DNA序列或者RNA序列。这些序列片段是由A、G、C、T或者A、G、C、U组成,序列片段的长度表示其含有的A、G、C、T或者A、G、C、U的个数。含有A、G、C、T的序列片段经过拼接得到大的序列片段,大的序列片段再经过拼接或比对得到DNA序列;同样,含有A、G、C、U的序列片段经过拼接得到大的序列片段,大的序列片段再经过拼接或比对得到RNA序列。序列片段拼接就好比一本书的多个副本通过粉碎机之后得到许多碎片,然后试图通过许多碎片拼凑出一本书的过程。结果拼凑书的过程中可能会出现很多重复的段落,并且段落中有拼凑错的地方。序列片段拼接过程中同样也存在错误,这就需要识别错误并校正错误。 

现有的一种对基因序列片段进行拼接的方法。所述方法包括如下步骤:步骤A、计算机储存DNA序列片段信息,其来自多个DNA序列片段;步骤B、用一个锚定序列检索序列片段信息,该锚定序列的长度为n,一个序列片段至少被两个锚定序列检索;步骤C、根据所述的锚定序列对序列片段进行分组;步骤D、合并在一组的序列片段,用来获得更长的序列片段;步骤E、利用来自一个序列片段的至少两个锚定序列产生至少两个一致的序列。由于测序过程中或者测序信号识别过程中仪器、操作等会使序列片段存在错误,最终使得测序得到的DNA序列片段过短,同时该错误会导致通过拼接得到序列片段过短,也即该技术方案虽然能够实现序列片段的比对和拼接,但无法准确识别并去除错误信息,最终使得拼接后的序列不准确且冗余过多,降低了拼接后的序列用于后续分析的价值。 

因此需要一种新的对序列片段进行拼接的系统和方法,能够提高序列片段拼接的准确度。 

发明内容

本发明的目的在于提供一种对基因序列片段进行拼接的系统和方法,旨在解决现有技术通过拼接所得的序列过短,且无法准确识别并去除错误信息而导致拼接后的序列不准确且冗余过多的问题。 

为了实现发明目的,本发明提供了一种对基因序列片段进行拼接的系统包括:数据库、过滤单元、拼接单元和处理单元。 

其中,所述数据库用于存储基因序列片段;所述过滤单元用于对数据库中的基因序列片段中的短序列片段进行过滤,得长序列片段;所述拼接单元用于对长序列片段进行分段和拼接处理,得序列拼接图;所述处理单元用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述处理单元中记录的信息包括对序列拼接图进行去除处理后的图的信息和图中被去除的信息。 

其中,所述过滤单元用于滤除长度小于L的基因序列片段;所述L>5,L为整数。 

其中,所述拼接单元包括分段模块、节点模块、拼接模块。所述分段模块用于将长序列片段转换成长度为K的锚定序列,所述K为正整数;所述节点模块用于根据锚定序列建立节点;每个锚定序列建立一个节点;所述拼接模块用于将节点连接成序列拼接图。 

其中,所述拼接模块用于连接节点,并对节点进行合并形成合并节点,搜索、连接合并节点形成序列拼接图。 

其中,所述每个节点包括正向节点和/或反向节点;每个节点的长度在3~20之间。 

其中,所述处理单元包括图处理模块、内图处理模块和记录模块。所述图处理模块用于对碱基个数小于M的序列拼接图进行去除处理;所述内图处理模块用于对去除处理后的序列拼接图中的环路中的一条路和分支进行去除处理;所述记录模块用于记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息;所述M≥6,R≥6,且M和R均为整数。 

其中,所述系统还包括显示单元,用于显示处理单元得到的序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。 

其中,所述系统还包括输入单元,用于接收输入指令;所述输入指令包括长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。 

 为了更好地实现本发明的目的,本发明还提供了一种对基因序列片段进行拼接的方法,包括步骤:A、对基因序列片段中的短序列片段进行滤除,得长序列片段;B、对长序列片段进行分段和拼接处理,得序列拼接图;C、对所述序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述步骤C中记录得到的序列信息,包括对图进行去除处理后的序列拼接图的信息和序列拼接图中去除的信息。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛司潼,未经盛司潼许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210291770.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top