[发明专利]一种基于参考序列的基因压缩方法有效
申请号: | 201910598102.0 | 申请日: | 2019-07-04 |
公开(公告)号: | CN110310709B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 季一木;陈帅;尧海昌;李奎;刘尚东;方厚之;刘强 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16B50/50 | 分类号: | G16B50/50 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 参考 序列 基因 压缩 方法 | ||
本发明公开了一种基于参考序列的基因压缩方法,首先任意选取一个基因序列作为参考序列。其次,获取参考序列的小写字符和ACGT,并以二元组表示小写字符。然后,读取参考文件,获得参考文件的头部、换行信息、小写字符、N字符、碱基信息和其他字符,并将换行长度、小写字符、N字符和其他字符表示成二元组。接着,匹配参考序列和待压缩序列的小写字符二元组。最后匹配Hash值。解压缩过种采用压缩过程相反的步骤。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。
技术领域
本发明涉及一种基因序列压缩的方案,主要用于解决基因序列数据过大,存储和传输成本高等问题,属于压缩算法领域。
背景技术
基因是DNA上有遗传效应的片段,人类的生老病死等都与基因有关。基因数据研究可以获得对生命运行机制和疾病机理等的深入研究,在生物医药学和相关生物技术产业,如制药、农、林、牧、渔、环保等的发展发挥越来越重要的作用,对于推动精准医疗,助力解决三大民生问题之一的医疗问题,具有重要的作用。因此,基因数据因其重要的社会价值和科研价值受到国际社会的广泛重视。自1990年正式启动的国际人类基因组计划以来,随着基因测序技术的不断进步,基因测序成本的不断降低,测序速度不断提高,众多国家和组织纷纷启动基因工程计划。2017年12月28日,我国启动“中国十万人基因组计划”,这是我国在人类基因组研究领域实施的首个重大国家计划,也是目前世界最大规模的人类基因组计划。随着各种测序项目的展开,产生的序列数据量呈指数规模增长,而且未来增长速度会更快。基因数据增长的速度大大超过了存储和传输带宽增长的速度,给存储和传输带来了很大的压力。如何以更高的效率存储基因数据,减轻存储和传输压力,在基因研究和应用中着十分重要的作用。
DNA序列数据具有与其他数据截然不同的特性,DNA序列是仅由A、G、C、T四个符号构成的超长序列,构成种类简单但是序列长度巨大。很大一部分DNA序列至今无法确定其用途,如果数据压缩过程中出现丢失,可能造成不可估量的损失,所以DNA序列必须保证无损压缩。另外,DNA序列中碱基对的排列并不是随机的,具有特定的概率分布和规律性。而且,DNA序列具有高度的相似性。首先,不同物种间的DNA序列相似度很高,同一物种间的DNA序列相似性更为明显。其次,同一个体内的不同片段的DNA序列也存在着许多精确重复。利用DNA这些信息特点,工业界和学术界提出了众多利用DNA序列特征的DNA序列压缩方法。经过对现在技术的文献检索发现,2000年T Matsumoto和K Sadakane在Genome Informatics上的“Biological sequence compression algorithms”提出了CTW+LZ方法,将上下文树加权(Context Tree Weighting,CTW)方法和LZ压缩方法相结合,使用多个编码模型对DNA序列的不同片段进行压缩。2002年,X Chen和M Li在Bioinformatics上的“DNACompress:fastand effective DNA sequence compression”提出了DNACompress压缩方法,使用了Pattern Hunter工具搜索DNA序列的重复与近似重复片段,提高了方法的整体速度。2005年,G Korodi和I Tabus在ACM Transactions on Information Systems上的“AnEffective Normalized Maximum Likelihood Algorithm for DNA SequenceCompression”提出了GeNML方法,对具有不同数据特点的DNA片段使用不同的编码策略和概率模型进行压缩。2013年,Sebastian Wandelt and Uif Leser在IEEE/ACM Transactionson Computational Biology and Bioinformatics的“FRESCO:Referential Compressionof Highly Similar Sequences”提出了一种叫FRESCO的快速基因压缩方法,它采用了一种用参考基因来表示被压缩基因的方法。2015年,Xiaojing Xie,Shuigeng Zhou和JihongGuan在IEEE/ACM Transactions on Computational Biology and Bioinformatics的“CoGI:Towards Compressing Genomes as an Image”上提出了一种用图模型来表示基因数据,从而可以利用图压缩技术来压缩基因模型的方法。总结这些DNA序列压缩方法可以分为两大类:基于非参考序列的DNA序列压缩方法和基于参考序列的DNA序列压缩方法,这些方法都有效的提高了压缩比和压缩效率。但总体而言,DNA序列的压缩技术仍处于起步阶段,组成基因片段的生物信息特征及片段内部的细节重复特性并没有被充分发挥利用。基因序列之间的特征也还没有被充分挖掘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910598102.0/2.html,转载请声明来源钻瓜专利网。