[发明专利]一种基于深度学习的基因组数据无损压缩方法及相关设备在审
| 申请号: | 202210743081.9 | 申请日: | 2022-06-28 |
| 公开(公告)号: | CN115098455A | 公开(公告)日: | 2022-09-23 |
| 发明(设计)人: | 王荣杰;刘贤明;朱泽轩 | 申请(专利权)人: | 鹏城实验室 |
| 主分类号: | G06F16/174 | 分类号: | G06F16/174;G16B40/00;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 陈专 |
| 地址: | 518000 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 基因组 数据 无损 压缩 方法 相关 设备 | ||
本发明公开了一种基于深度学习的基因组数据无损压缩方法及相关设备,所述方法包括:基于深度学习模型学习得到基因组序列的上下文关系特征和非局部特征;基于上下文关系特征和非局部特征,当输入碱基上文时,深度学习模型预测碱基上文后紧邻的多个碱基分别对应的预测概率;利用深度学习模型输出的多个碱基分别对应的预测概率连接算术编码,利用算术编码,编码待压缩碱基的概率,输出压缩结果文件。本发明通过深度学习模型学习得到基因组上下文之间的相关性,利用已压缩过的碱基序列信息,预测当前待编码碱基的概率,最后利用算术编码,输出压缩结果文件,实现了对基因组数据的无损压缩。
技术领域
本发明涉及数据压缩技术领域,尤其涉及一种基于深度学习的基因组数据无损压缩方法、系统、终端及计算机可读存储介质。
背景技术
随着第二代(NGS,高通量测序技术)基因组测序技术的发展,产生了大量的基因组测序数据,与此同时,也产生了大量的由基因组测序数据拼接而成的基因组序列数据。这些海量的基因组序列数据对存储和传输都带来了巨大压力。由于相同物种之间基因组具有高度的相似性,为数据压缩提供了便利。然而,现有的基于参考基因组的压缩方法都需要比对(mapping)或近似比对(similar mapping)过程,而这些过程往往耗时过长,要求压缩和解压缩时均要求有参考基因组,参考基因组必须一致。并且由于基因组变异信息(突变、插入、删除)的存在,使得变异位置点不能完全匹配,需要存储变异位置点的位置和碱基信息。
近年来,深度学习方法,特别是卷积神经网络(convolutional neural networks,CNN)和循环神经网络(recurrent neural networks,RNN)在计算机视觉和文本领域均取得了巨大成就,它们被认为是一种适用于文本、图像在内的特征提取网络。在文本预测领域当中,它们能够通过将输入数据转化成Word2Vec,然后通过学习训练,捕捉上下文特征,用于字符预测。然而,基因组数据具有自身的特异性,包括只含有四个碱基字符(A、C、G、T),存在大量的短序列重复、近似重复和方向互补重复序列。因此,传统意义上的Word2Vec方法、卷积神经网络和循环神经网络简单提取的文本特征,不再适用于基因组数据。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的在于提供一种基于深度学习的基因组数据无损压缩方法、系统、终端及计算机可读存储介质,旨在解决现有技术中在提取到基因组序列的上下文特征后,无法利用网络输出的碱基概率信息输出压缩结果文件的问题。
为实现上述目的,本发明提供一种基于深度学习的基因组数据无损压缩方法,所述基于深度学习的基因组数据无损压缩方法包括如下步骤:
基于深度学习模型学习得到基因组序列的上下文关系特征和非局部特征;
基于上下文关系特征和非局部特征,当输入碱基上文时,深度学习模型预测碱基上文后紧邻的多个碱基分别对应的预测概率;
利用深度学习模型输出的多个碱基分别对应的预测概率连接算术编码,利用算术编码,编码待压缩碱基的概率,输出压缩结果文件。
所述的基于深度学习的基因组数据无损压缩方法,其中,所述基于深度学习模型学习得到基因组序列的上下文关系特征和非局部特征,具体包括:
若数据集D={D1,D2,…,Dn}共有n个基因组序列样本,训练时每个样本Di拆分成长度为k的n-gram子序列,n-gram子序列的前k-1个碱基为输入上文序列,第k个碱基被认为是待预测碱基的监督字符;
对于n-gram子序列按照One-hot形式进行编码,编码方式为:
A→1000
C→0100
G→0010
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210743081.9/2.html,转载请声明来源钻瓜专利网。





