[发明专利]一种对基因序列片段进行拼接的系统和方法有效
申请号: | 201210291770.7 | 申请日: | 2012-08-16 |
公开(公告)号: | CN102867134A | 公开(公告)日: | 2013-01-09 |
发明(设计)人: | 盛司潼 | 申请(专利权)人: | 盛司潼 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序列 片段 进行 拼接 系统 方法 | ||
技术领域
本发明涉及生物信息处理领域,更具体地说,涉及一种对基因序列片段进行拼接的系统和方法。
背景技术
对基因序列片段进行拼接是将小的序列片段进行比对合并成大的DNA序列或者RNA序列。这些序列片段是由A、G、C、T或者A、G、C、U组成,序列片段的长度表示其含有的A、G、C、T或者A、G、C、U的个数。含有A、G、C、T的序列片段经过拼接得到大的序列片段,大的序列片段再经过拼接或比对得到DNA序列;同样,含有A、G、C、U的序列片段经过拼接得到大的序列片段,大的序列片段再经过拼接或比对得到RNA序列。序列片段拼接就好比一本书的多个副本通过粉碎机之后得到许多碎片,然后试图通过许多碎片拼凑出一本书的过程。结果拼凑书的过程中可能会出现很多重复的段落,并且段落中有拼凑错的地方。序列片段拼接过程中同样也存在错误,这就需要识别错误并校正错误。
现有的一种对基因序列片段进行拼接的方法。所述方法包括如下步骤:步骤A、计算机储存DNA序列片段信息,其来自多个DNA序列片段;步骤B、用一个锚定序列检索序列片段信息,该锚定序列的长度为n,一个序列片段至少被两个锚定序列检索;步骤C、根据所述的锚定序列对序列片段进行分组;步骤D、合并在一组的序列片段,用来获得更长的序列片段;步骤E、利用来自一个序列片段的至少两个锚定序列产生至少两个一致的序列。由于测序过程中或者测序信号识别过程中仪器、操作等会使序列片段存在错误,最终使得测序得到的DNA序列片段过短,同时该错误会导致通过拼接得到序列片段过短,也即该技术方案虽然能够实现序列片段的比对和拼接,但无法准确识别并去除错误信息,最终使得拼接后的序列不准确且冗余过多,降低了拼接后的序列用于后续分析的价值。
因此需要一种新的对序列片段进行拼接的系统和方法,能够提高序列片段拼接的准确度。
发明内容
本发明的目的在于提供一种对基因序列片段进行拼接的系统和方法,旨在解决现有技术通过拼接所得的序列过短,且无法准确识别并去除错误信息而导致拼接后的序列不准确且冗余过多的问题。
为了实现发明目的,本发明提供了一种对基因序列片段进行拼接的系统包括:数据库、过滤单元、拼接单元和处理单元。
其中,所述数据库用于存储基因序列片段;所述过滤单元用于对数据库中的基因序列片段中的短序列片段进行过滤,得长序列片段;所述拼接单元用于对长序列片段进行分段和拼接处理,得序列拼接图;所述处理单元用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述处理单元中记录的信息包括对序列拼接图进行去除处理后的图的信息和图中被去除的信息。
其中,所述过滤单元用于滤除长度小于L的基因序列片段;所述L>5,L为整数。
其中,所述拼接单元包括分段模块、节点模块、拼接模块。所述分段模块用于将长序列片段转换成长度为K的锚定序列,所述K为正整数;所述节点模块用于根据锚定序列建立节点;每个锚定序列建立一个节点;所述拼接模块用于将节点连接成序列拼接图。
其中,所述拼接模块用于连接节点,并对节点进行合并形成合并节点,搜索、连接合并节点形成序列拼接图。
其中,所述每个节点包括正向节点和/或反向节点;每个节点的长度在3~20之间。
其中,所述处理单元包括图处理模块、内图处理模块和记录模块。所述图处理模块用于对碱基个数小于M的序列拼接图进行去除处理;所述内图处理模块用于对去除处理后的序列拼接图中的环路中的一条路和分支进行去除处理;所述记录模块用于记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息;所述M≥6,R≥6,且M和R均为整数。
其中,所述系统还包括显示单元,用于显示处理单元得到的序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。
其中,所述系统还包括输入单元,用于接收输入指令;所述输入指令包括长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。
为了更好地实现本发明的目的,本发明还提供了一种对基因序列片段进行拼接的方法,包括步骤:A、对基因序列片段中的短序列片段进行滤除,得长序列片段;B、对长序列片段进行分段和拼接处理,得序列拼接图;C、对所述序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述步骤C中记录得到的序列信息,包括对图进行去除处理后的序列拼接图的信息和序列拼接图中去除的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛司潼,未经盛司潼许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210291770.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:进气消声过滤器
- 下一篇:一种石油钻机余热发电装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用