[发明专利]一种对基因序列片段进行拼接的系统和方法有效
申请号: | 201210291770.7 | 申请日: | 2012-08-16 |
公开(公告)号: | CN102867134A | 公开(公告)日: | 2013-01-09 |
发明(设计)人: | 盛司潼 | 申请(专利权)人: | 盛司潼 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序列 片段 进行 拼接 系统 方法 | ||
1.一种对基因序列片段进行拼接的系统,其特征在于,所述系统包括数据库、过滤单元、拼接单元和处理单元;
所述数据库用于存储基因序列片段;
所述过滤单元用于对数据库中的基因序列片段中的短序列片段进行过滤,得长序列片段;
所述拼接单元用于对长序列片段进行分段和拼接处理,得序列拼接图;
所述处理单元用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;
所述处理单元中记录的信息包括对序列拼接图进行去除处理后的图的信息和图中被去除的信息。
2.根据权利要求1所述的系统,其特征在于,所述过滤单元用于滤除长度小于L的基因序列片段;所述L>5,L为整数。
3.根据权利要求1所述的系统,其特征在于,所述拼接单元包括分段模块、节点模块、拼接模块;
所述分段模块用于将长序列片段转换成长度为K的锚定序列,所述K为正整数;
所述节点模块用于根据锚定序列建立节点;每个锚定序列建立一个节点;
所述拼接模块用于将节点连接成序列拼接图。
4.根据权利要求3所述的系统,其特征在于,所述拼接模块用于连接节点,并对节点进行合并形成合并节点,搜索、连接合并节点形成序列拼接图。
5.根据权利要求3所述的系统,其特征在于,所述每个节点包括正向节点和/或反向节点;每个节点的长度在3~20之间。
6.根据权利要求1所述的系统,其特征在于,所述处理单元包括图处理模块、内图处理模块和记录模块;
所述图处理模块用于对碱基个数小于M的序列拼接图进行去除处理;
所述内图处理模块用于对去除处理后的序列拼接图中的环路中的一条路和分支进行去除处理;
所述记录模块用于记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息;
所述M≥6,R≥6,且M和R均为整数。
7.根据权利要求1至6中任一项所述的系统,其特征在于,所述系统还包括显示单元,用于显示处理单元得到的序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。
8.根据权利要求1至6中任一项所述的系统,其特征在于,所述系统还包括输入单元,用于接收输入指令;所述输入指令包括长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。
9.一种对基因序列片段进行拼接的方法,其特征在于,所述方法包括以下步骤:
A、对数据库中的基因序列片段中的短序列片段进行滤除,得长序列片段;
B、对长序列片段进行分段和拼接处理,得序列拼接图;
C、对所述序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;
所述步骤C中记录得到的序列信息,包括对图进行去除处理后的序列拼接图的信息和序列拼接图中去除的信息。
10.根据权利要求9所述的方法,其特征在于,所述步骤A中,滤除长度小于L的基因序列片段,得长度大于等于L的长序列片段;所述L>5,L为整数。
11.根据权利要求9所述的方法,其特征在于,所述步骤B包括:
B1、将长序列片段转换成长度为K的锚定序列,所述K为正整数;
B2、根据锚定序列建立节点;每个锚定序列建立一个节点;
B3、将节点连接成序列拼接图。
12.根据权利要求11所述的方法,其特征在于,所述步骤C包括:
C1、去除碱基个数小于M的序列拼接图;
C2、对去除处理后剩余的序列拼接图中的环路中的一条路和分支进行去除处理;
C3、记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息;
所述M≥6,R≥6,且M和R均为整数。
13.根据权利要求9至12中任一项所述的方法,其特征在于,所述步骤C之后还包括步骤D、显示序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。
14.根据权利要求9至12中任一项所述的方法,其特征在于,所述步骤A之前还包括步骤A0、获取并存储序基因列片段,并确定长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛司潼,未经盛司潼许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210291770.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:进气消声过滤器
- 下一篇:一种石油钻机余热发电装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用