[发明专利]基因数据无损压缩方法、集成电路及无损压缩设备有效

专利信息
申请号: 202110632382.X 申请日: 2021-06-07
公开(公告)号: CN113285720B 公开(公告)日: 2023-07-07
发明(设计)人: 谭光明;刘万奇;李叶文;康宁;孙凝晖 申请(专利权)人: 中科计算技术西部研究院
主分类号: H03M7/30 分类号: H03M7/30
代理公司: 重庆强大凯创专利代理事务所(普通合伙) 50217 代理人: 黄书凯
地址: 401120 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基因 数据 无损 压缩 方法 集成电路 设备
【说明书】:

发明涉及数据压缩技术领域,具体涉及一种基因数据无损压缩方法、集成电路及无损压缩设备,所述集成电路及无损压缩设备均采用所述方法,所述方法包括以下步骤:S1、获取基因数据和对应基因数据的实际压缩需求;S2、将基因数据分割为若干数据字段;S3、根据各数据字段的数据特点以及实际压缩需求选择压缩算子,并组合为压缩算法;S4、将各数据字段根据对应的压缩算法进行压缩处理;S5、将各数据字段的压缩结果进行合并。本发明能实现基因数据无损压缩的同时,实现低压缩率和高压缩效率的基因数据压缩。

技术领域

本发明涉及数据压缩技术领域,具体涉及一种基因数据无损压缩方法、集成电路及无损压缩设备。

背景技术

基因测序技术作为探索生命奥秘的重要手段,已经成为了生物信息学研究的重要分支,在物种鉴别、基因检测、疾病诊断等方面有着广泛的应用,基因测序技术的飞速发展为精准医疗奠定了坚实的基础。

二代测序成本的不断下降,导致基因测序数据爆炸式增长,这种趋势在未来会更加明显。与此同时,相应的基因分析软件运行过程中也会产生海量的中间数据。面对如此海量的基因测序数据和中间数据,使用数据压缩技术来缓解上述数据对硬盘存储空间、网络带宽、以及计算带来的巨大压力,就成为了一个自然的选择。为了保存完整的基因数据信息,通常采用的是无损压缩。无损压缩是指能够在100%保存源文件的所有数据的前提下,将文件的容量空间压缩得更小,再将压缩后的文件还原后,可完全恢复源文件的所有数据而不引起任何失真。

当前基因分析流程中多采用现有的压缩软件(GZIP)进行数据压缩,其缺点之一就是在压缩率和压缩效率方面存在不足,压缩率是指文件压缩后的大小与压缩前的大小之比,例如:把100M的文件压缩后是90M,压缩率为90/100*100%=90%,压缩率是越小,对硬盘存储空间、网络带宽、以及计算带来的压力也就越小。但是GZIP的压缩率越小时压缩效率越低,即压缩所需要的时间就越长,不好平衡对于压缩率和压缩效率的选择,局限性较大,难以满足日益增长的海量基因数据的压缩需求;其缺点之二是日益增长的海量基因数据在压缩时会加重CPU的负担,影响整个基因分析流程的性能。综上所述,亟需一种更加高性能、低压缩率、高压缩效率的基因数据压缩处理方式。

发明内容

本发明的目的之一在于提供一种基因数据无损压缩方法,能实现基因数据无损压缩的同时,实现低压缩率和高压缩效率的基因数据压缩。

为了达到上述目的,提供了一种基因数据无损压缩方法,包括以下步骤:

S1、将基因数据分割为若干数据字段;

S2、根据各数据字段的数据特点以及实际压缩需求选择压缩算子,并组合为压缩算法;

S3、将各数据字段根据对应的压缩算法进行压缩处理;

S4、将各数据字段的压缩结果进行合并。

原理及优点:

由于基因数据的测序文件少则几G,多则几十G到上百G,采用常规的压缩软件来压缩,这种方式对计算机CPU的负担大,占用的计算资源多,而且压缩方式单一,压缩率和压缩效率也不能很好的兼顾。而本方案将基因数据分割为若干数据字段,经过分割后每个数据字段的大小都得以变小,计算机处理起来更为容易,可以方便通过并行处理来提高压缩效率。再根据各数据字段的数据特点来选择一个或多个压缩算子而组合而成压缩算法,而压缩算法可以得到多种,使得压缩率和压缩效率得到很好的兼顾。再通过实际压缩需求来对多种压缩算法进行筛选,以最终筛选的压缩算法来对各数据字段进行压缩,从而达到最符合要求且兼顾压缩率和压缩效率的效果。

进一步,所述步骤S1中,将基因数据根据数据类型分割,取得对应数据类型的数据字段;所述数据类型包括名字信息、基因序列信息和基因序列信息中碱基对应的质量分数信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科计算技术西部研究院,未经中科计算技术西部研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110632382.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top