[发明专利]一种核酸测序信息处理系统及方法有效

专利信息
申请号: 201210112811.1 申请日: 2012-04-18
公开(公告)号: CN102682226A 公开(公告)日: 2012-09-19
发明(设计)人: 盛司潼 申请(专利权)人: 盛司潼
主分类号: G06F19/22 分类号: G06F19/22
代理公司: 暂无信息 代理人: 暂无信息
地址: 518057 广东省深圳市南山区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 核酸 信息处理 系统 方法
【说明书】:

技术领域

发明涉及信息处理领域,更具体地说,涉及一种核酸测序信息处理系统及方法。

背景技术

在全球的努力下,人类已经完成了多种生物的核酸测序,在第二代核酸测序技术中,人类充分利用已知的核酸来对个体进行测序,寻找个体的突变的基因,从而为个体外在的表现性提供可靠的依据。

现有技术中,将经过测序、分析得到多条核酸序列片段(称reads,一条核酸序列片段称为read),将每条read随机分成4段,依次标记为a,b,c,d。将a与b,c,d分别组合形成短核酸序列片段,也即形成三条短片段(称seeds,单条短片段称seed),三条seeds分别为ab,ac,ad。利用这三条seeds分别与参考序列比对,允许至多两个错配(也即允许seeds中有两个碱基与参考序列上的碱基不同)。该比对的方式为:第一、在参考序列上查找ab,如果完全比对上(也即没有错配),则可以得到ab在参考序列上的所有起始位置,然后在参考序列上对应的起始位置上找到序列c和序列d。情况有如下几种:①c上有2个错配,d完全比对上;②c有1个错配,d有1个错配;③c有1个错配,d完全比对上;④c完全比对上,d有2个错配;⑤c完全比对上,d有1个错配;⑥c、d完全比对上。第二、如果参考序列上没有找到ab,就在参考序列上查找ac,如果完全比对上,则可以得到ac在参考序列上的所有起始位置,然后在参考序列上对应的位置上找到序列b和序列d。情况有如下几种:①b有2个错配,d完全比对上,②b有1个错配,d有1个错配,③b有1个错配,d完全比对上。第三、如果参考序列上也没找到ac,就在参考序列上查找ad,如果完全比对上,则可以得到ad在参考序列上的所有起始位置,然后在参考序列上对应的起始位置上找到前面序列a和序列b,只有一种情况:b有1个错配,c有1个错配。第四、如果参考序列也没找到ad,说明该read不满足最多2个错配的要求。

在测序中,由于测序装置、测序方法、测序人员的操作等出现误差均会出现错配,所以在实际reads比对中,允许有错配的情况。根据概率的原理,允许a出现与比对序列不一致的碱基的概率与b,c,d出现与比对序列不一致的碱基的概率一样,而只要当a中存在不一致的碱基,利用该技术方案比对时,均舍弃该read,导致reads的比对的精度非常低下。同时,该技术方案中,当ab没有比对上时,要比对ac,ac没有比对上时,要比对ad,这样a参与了多次比对,这势必会影响比对的速度,也即reads比对的效率比较低下。

因此需要一种核酸测序信息的处理系统及方法,能够准确快速的实现核酸序列片段的匹配。

发明内容

本发明的目的在于提供一种核酸测序信息的处理系统及方法,旨在解决现有技术核酸序列片段匹配不准确且匹配效率低的问题。

为了实现发明目的,一种核酸测序信息的处理系统包括:短片段建立单元、数据库建立单元和序列匹配单元。其中:所述短片段建立单元,用于将每条核酸序列片段进行分段建立短片段,并将每条核酸序列片段分段所得的短片段发给数据库建立单元和序列匹配单元;所述数据库建立单元,用于根据短片段的长度建立并存储参考序列索引,得数据库;所述序列匹配单元,用于将每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配,得匹配结果。

其中,所述短片段建立单元可包括第一决策模块和第一分段模块;所述第一决策模块,用于获取最短的一条核酸序列片段,并将该核酸序列片段和该核酸序列片段的碱基个数发给第一分段模块;所述第一分段模块,用于对最短的一条核酸序列片段进行分段得多条短片段,并完成其他核酸序列片段的分段建立短片段;所述其他核酸序列的分段方式与最短的一条核酸序列片段分段方式相同。

其中,所述数据库建立单元可包括第一索引模块和第一标引模块;所述第一索引模块,用于建立长度与短片段等长的参考序列索引,并将参考序列索引发给第一标引模块;所述第一标引模块,用于对参考序列索引按顺序进行标记,得数据库;所述数据库中参考序列索引中任意相邻的两个索引,前一个索引的第2到最后一位的碱基和后一索引的第1到倒数第二位的碱基相同。

其中,所述短片段建立单元可包括第二决策模块和第二分段模块;所述第二决策模块,用于按长度对核酸序列片段进行分类,得多类核酸序列片段,并将结果发给第二分段模块;所述第二分段模块,用于对每类核酸序列片段中最短的一条核酸序列片段进行分段得多条短片段,并完成该类其他核酸序列片段的分段建立短片段;所述其他核酸序列的分段方式与每类核酸序列片段中最短的一条核酸序列片段分段方式相同。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛司潼,未经盛司潼许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210112811.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top