[发明专利]一种DNA序列数据压缩系统有效

专利信息
申请号: 201110002601.2 申请日: 2011-01-07
公开(公告)号: CN102081707A 公开(公告)日: 2011-06-01
发明(设计)人: 纪震;周家锐;朱泽轩;储颖 申请(专利权)人: 深圳大学
主分类号: G06F19/10 分类号: G06F19/10
代理公司: 深圳市君胜知识产权代理事务所 44268 代理人: 王永文;杨宏
地址: 518060 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 dna 序列 数据压缩 系统
【说明书】:

技术领域

发明涉及数据压缩领域,特别涉及一种基于文化基因近似重复矢量模型的DNA序列数据无损压缩系统。

背景技术

DNA是物种细胞内用于存储遗传指令信息的双链状聚合物,是生物生存、延续与发展的重要物质基础。DNA序列数据是DNA物质在生物信息学 (Bioinformatics) 上的抽象模型,包含了完整的遗传信息,具有重要的科研价值与社会意义。为获得各种生物的遗传信息,各种DNA测序工程陆续展开,产生了海量的DNA序列数据,为现有数据存储与传输资源带来巨大压力。因而需要对DNA序列数据进行压缩处理。目前学术界尚未完全了解DNA内包含的所有信息,故只能使用无损的压缩编码方法。另一方面,由于DNA序列具有独特的生物数据特点,传统的通用压缩算法无法对其进行有效编码,从而催生了专门针对DNA序列数据的压缩方法。

现有较为典型的DNA序列数据压缩方法为BioCompress-2系统。BioCompress-2是首个具有实用意义的DNA序列数据压缩系统,也是后续改进系统的基础。

DNA序列具有由A (Adenine,腺嘌呤)、T (Thymine,胸腺嘧啶)、C (Cytosine,胞嘧啶)、G (Guanine,鸟嘌呤) 四种碱基符号构成一维长字符串的数据形式。若不考虑其生物学含义,可视作普通文本数据进行压缩编码。在BioCompress-2中,引入通用的LZ压缩算法对输入数据进行编码处理。LZ算法可有效消除一般文本数据中的冗余。但DNA序列具有特殊数据构成,仅使用LZ算法对其进行压缩常常会导致编码后数据量反而有所增加。为解决这一问题,BioCompress-2系统引入对比编码前后数据量的处理方法。仅当使用LZ算法压缩后数据体积实际有所减小时,才对输入的DNA序列数据进行编码操作,否则将维持数据原状。此外,BioCompress-2系统在压缩编码时,不仅搜索直接重复的片段,也同样寻找最长的回文重复序列 (Palindrome)。通过使用滑动窗范围内的直接重复模型与回文重复模型概括输入数据中的冗余信息,BioCompress-2算法可有效提升在DNA序列上的压缩性能。

BioCompress-2系统及以其为基础的改进DNA序列数据压缩系统,常包含三个主要缺陷:

    第一,系统仅使用直接重复模型与回文重复模型描述DNA序列的冗余,并不足以涵盖序列数据的所有特点。从而在压缩时,仍有很大部分的重复片段因其模式未被考虑而无法进行编码处理。影响了压缩效果。

    第二,BioCompress-2系统在匹配时仅考虑了精确重复的数据。而DNA序列来源于生物细胞内的实际遗传物质,其在复制、杂交及演化过程中会出现大量的碱基符号变异 (Mutation) 与损坏 (Damage)。因此DNA序列中的重复更多地以近似重复的形式存在。压缩系统仅对精确重复片段进行搜索,将遗漏大量近似重复的数据冗余。

    第三,使用LZ算法进行压缩编码时,其搜索范围仅为滑动窗缓冲区内的部分序列。而源于生物实际物质的DNA序列数据与普通的文本数据有所不同,其大规模重复更可能出现于相距较远的位置,超越了一般LZ算法滑动窗的覆盖范围。从而在搜索时,LZ算法仅能找到小规模的片段重复,导致其编码后数据量往往反而有所膨胀。这也在很大程度上限制了BioCompress-2系统的压缩性能。

因此,现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足,本发明的目的在于提供一种DNA序列数据压缩系统,旨在解决现有技术中所存在的问题。

本发明的技术方案如下:

一种DNA序列数据压缩系统,其中,所述DNA序列数据压缩系统包括:

MA-ARV码本设计模块,用于构造针对当前输入DNA序列数据的压缩码本;

DNA序列数据压缩模块,用于根据MA-ARV码本对输入数据进行无损压缩编码;

DNA序列数据解压模块,用于对压缩后的数据文件进行解压恢复操作。

所述的DNA序列数据压缩系统,其中,所述DNA序列数据压缩系统还包括输入模块、检测模块和输出模块;

所述输入模块、检测模块、DNA序列数据压缩模块与输出模块依次相连,所述检测模块还分别与MA-ARV码本设计模块、DNA序列数据解压模块相连,所述MA-ARV码本设计模块与DNA序列数据压缩模块相连。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110002601.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top