[发明专利]一种DNA序列数据压缩系统有效

申请号：	201110002601.2	申请日：	2011-01-07
公开（公告）号：	CN102081707A	公开（公告）日：	2011-06-01
发明（设计）人：	纪震;周家锐;朱泽轩;储颖	申请（专利权）人：	深圳大学
主分类号：	G06F19/10	分类号：	G06F19/10
代理公司：	深圳市君胜知识产权代理事务所 44268	代理人：	王永文;杨宏
地址：	518060 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 dna 序列数据压缩系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种DNA序列数据压缩系统，其特征在于，所述DNA序列数据压缩系统包括：

MA-ARV码本设计模块，用于构造针对当前输入DNA序列数据的压缩码本；

DNA序列数据压缩模块，用于根据MA-ARV码本对输入数据进行无损压缩编码；

DNA序列数据解压模块，用于对压缩后的数据文件进行解压恢复操作。

2.根据权利要求1所述的DNA序列数据压缩系统，其特征在于，所述DNA序列数据压缩系统还包括输入模块、检测模块和输出模块；

所述输入模块、检测模块、DNA序列数据压缩模块与输出模块依次相连，所述检测模块还分别与MA-ARV码本设计模块、DNA序列数据解压模块相连，所述MA-ARV码本设计模块与DNA序列数据压缩模块相连。

3.根据权利要求1所述的DNA序列数据压缩系统，其特征在于，所述MA-ARV码本设计模块将当前输入DNA序列数据表示为MA-ARV矢量v，其直接重复模式冗余片段表示为相同矢量v，镜像重复片段为矢量v^-1；根据碱基配对原则，对于配对重复片段有矢量v^*，对于反转重复片段有矢量v^-1*。

4.根据权利要求1所述的DNA序列数据压缩系统，其特征在于，所述DNA序列数据压缩系统在压缩数据时，使用编码格式为 {id, repeat type, {edit error}}，其中id为对应MA-ARV码矢量编号，repeat type为重复模式，edit error为编辑误差信息序列。

5.根据权利要求4所述的DNA序列数据压缩系统，其特征在于，所述编辑误差信息序列用{offset, edit type, symbol} 的格式进行编码；其中offset为编辑操作碱基的位置，edit type为操作类型符号：S表示替换、D表示删除、I表示插入，symbol为操作的碱基符号。

6.一种DNA序列数据压缩方法，其特征在于，包括以下步骤：

S100、数据输入；

S200、检测输入的数据是否为原始DNA序列数据，如果是，执行S300，如果否，执行S400；

S300、检测输入的数据是否包含MA-ARV码本，如果是，执行S311，如果否，执行S321；

S311、进入DNA序列数据压缩模块，根据MA-ARV码本对输入数据进行无损压缩编码；

S312、最后输出压缩后的DNA序列数据；

S321、进入MA-ARV码本设计模块，构造针对当前输入DNA序列数据的压缩码本，然后执行S311；

S400、进入DNA序列数据解压模块，对压缩后的数据文件进行解压恢复操作；

S410、最后输出解压恢复的原始DNA序列数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳大学，未经深圳大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】