[发明专利]一种核酸测序信息处理系统及方法有效
申请号: | 201210112811.1 | 申请日: | 2012-04-18 |
公开(公告)号: | CN102682226A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 盛司潼 | 申请(专利权)人: | 盛司潼 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 核酸 信息处理 系统 方法 | ||
技术领域
本发明涉及信息处理领域,更具体地说,涉及一种核酸测序信息处理系统及方法。
背景技术
在全球的努力下,人类已经完成了多种生物的核酸测序,在第二代核酸测序技术中,人类充分利用已知的核酸来对个体进行测序,寻找个体的突变的基因,从而为个体外在的表现性提供可靠的依据。
现有技术中,将经过测序、分析得到多条核酸序列片段(称reads,一条核酸序列片段称为read),将每条read随机分成4段,依次标记为a,b,c,d。将a与b,c,d分别组合形成短核酸序列片段,也即形成三条短片段(称seeds,单条短片段称seed),三条seeds分别为ab,ac,ad。利用这三条seeds分别与参考序列比对,允许至多两个错配(也即允许seeds中有两个碱基与参考序列上的碱基不同)。该比对的方式为:第一、在参考序列上查找ab,如果完全比对上(也即没有错配),则可以得到ab在参考序列上的所有起始位置,然后在参考序列上对应的起始位置上找到序列c和序列d。情况有如下几种:①c上有2个错配,d完全比对上;②c有1个错配,d有1个错配;③c有1个错配,d完全比对上;④c完全比对上,d有2个错配;⑤c完全比对上,d有1个错配;⑥c、d完全比对上。第二、如果参考序列上没有找到ab,就在参考序列上查找ac,如果完全比对上,则可以得到ac在参考序列上的所有起始位置,然后在参考序列上对应的位置上找到序列b和序列d。情况有如下几种:①b有2个错配,d完全比对上,②b有1个错配,d有1个错配,③b有1个错配,d完全比对上。第三、如果参考序列上也没找到ac,就在参考序列上查找ad,如果完全比对上,则可以得到ad在参考序列上的所有起始位置,然后在参考序列上对应的起始位置上找到前面序列a和序列b,只有一种情况:b有1个错配,c有1个错配。第四、如果参考序列也没找到ad,说明该read不满足最多2个错配的要求。
在测序中,由于测序装置、测序方法、测序人员的操作等出现误差均会出现错配,所以在实际reads比对中,允许有错配的情况。根据概率的原理,允许a出现与比对序列不一致的碱基的概率与b,c,d出现与比对序列不一致的碱基的概率一样,而只要当a中存在不一致的碱基,利用该技术方案比对时,均舍弃该read,导致reads的比对的精度非常低下。同时,该技术方案中,当ab没有比对上时,要比对ac,ac没有比对上时,要比对ad,这样a参与了多次比对,这势必会影响比对的速度,也即reads比对的效率比较低下。
因此需要一种核酸测序信息的处理系统及方法,能够准确快速的实现核酸序列片段的匹配。
发明内容
本发明的目的在于提供一种核酸测序信息的处理系统及方法,旨在解决现有技术核酸序列片段匹配不准确且匹配效率低的问题。
为了实现发明目的,一种核酸测序信息的处理系统包括:短片段建立单元、数据库建立单元和序列匹配单元。其中:所述短片段建立单元,用于将每条核酸序列片段进行分段建立短片段,并将每条核酸序列片段分段所得的短片段发给数据库建立单元和序列匹配单元;所述数据库建立单元,用于根据短片段的长度建立并存储参考序列索引,得数据库;所述序列匹配单元,用于将每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配,得匹配结果。
其中,所述短片段建立单元可包括第一决策模块和第一分段模块;所述第一决策模块,用于获取最短的一条核酸序列片段,并将该核酸序列片段和该核酸序列片段的碱基个数发给第一分段模块;所述第一分段模块,用于对最短的一条核酸序列片段进行分段得多条短片段,并完成其他核酸序列片段的分段建立短片段;所述其他核酸序列的分段方式与最短的一条核酸序列片段分段方式相同。
其中,所述数据库建立单元可包括第一索引模块和第一标引模块;所述第一索引模块,用于建立长度与短片段等长的参考序列索引,并将参考序列索引发给第一标引模块;所述第一标引模块,用于对参考序列索引按顺序进行标记,得数据库;所述数据库中参考序列索引中任意相邻的两个索引,前一个索引的第2到最后一位的碱基和后一索引的第1到倒数第二位的碱基相同。
其中,所述短片段建立单元可包括第二决策模块和第二分段模块;所述第二决策模块,用于按长度对核酸序列片段进行分类,得多类核酸序列片段,并将结果发给第二分段模块;所述第二分段模块,用于对每类核酸序列片段中最短的一条核酸序列片段进行分段得多条短片段,并完成该类其他核酸序列片段的分段建立短片段;所述其他核酸序列的分段方式与每类核酸序列片段中最短的一条核酸序列片段分段方式相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛司潼,未经盛司潼许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210112811.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调节的射频天线
- 下一篇:一种消息调度处理方法及系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用