[发明专利]一种基于深度学习的基因组数据无损压缩方法及相关设备在审
| 申请号: | 202210743081.9 | 申请日: | 2022-06-28 |
| 公开(公告)号: | CN115098455A | 公开(公告)日: | 2022-09-23 |
| 发明(设计)人: | 王荣杰;刘贤明;朱泽轩 | 申请(专利权)人: | 鹏城实验室 |
| 主分类号: | G06F16/174 | 分类号: | G06F16/174;G16B40/00;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 陈专 |
| 地址: | 518000 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 基因组 数据 无损 压缩 方法 相关 设备 | ||
1.一种基于深度学习的基因组数据无损压缩方法,其特征在于,所述基于深度学习的基因组数据无损压缩方法包括:
基于深度学习模型学习得到基因组序列的上下文关系特征和非局部特征;
基于上下文关系特征和非局部特征,当输入碱基上文时,深度学习模型预测碱基上文后紧邻的多个碱基分别对应的预测概率;
利用深度学习模型输出的多个碱基分别对应的预测概率连接算术编码,利用算术编码,编码待压缩碱基的概率,输出压缩结果文件。
2.根据权利要求1所述的基于深度学习的基因组数据无损压缩方法,其特征在于,所述基于深度学习模型学习得到基因组序列的上下文关系特征和非局部特征,具体包括:
若数据集D={D1,D2,…,Dn}共有n个基因组序列样本,训练时每个样本Di拆分成长度为k的n-gram子序列,n-gram子序列的前k-1个碱基为输入上文序列,第k个碱基被认为是待预测碱基的监督字符;
对于n-gram子序列按照One-hot形式进行编码,编码方式为:
A→1000
C→0100
G→0010
T→0001;
对于编码后的碱基序列,通过特征提取网络分别提取数据集D中的上下文关系特征和非局部特征。
3.根据权利要求2所述的基于深度学习的基因组数据无损压缩方法,其特征在于,对于上下文关系特征,使用卷集神经网络进行局部特征提取;对于非局部特征,使用LSTM网络进行提取。
4.根据权利要求2所述的基于深度学习的基因组数据无损压缩方法,其特征在于,碱基上文后紧邻的多个碱基包括A、C、G和T。
5.根据权利要求4所述的基于深度学习的基因组数据无损压缩方法,其特征在于,所述基于上下文关系特征和非局部特征,当输入碱基上文时,深度学习模型预测碱基上文后紧邻的多个碱基分别对应的预测概率,具体包括:
将上下文关系特征和非局部特征输入到特征映射网络;
当输入碱基上文时,利用softmax函数对A、C、G和T分别进行预测概率输出,并通过交叉熵损失训练分类器。
6.根据权利要求5所述的基于深度学习的基因组数据无损压缩方法,其特征在于,所述利用深度学习模型输出的多个碱基分别对应的预测概率连接算术编码,利用算术编码,编码待压缩碱基的概率,输出压缩结果文件,具体包括:
利用深度学习网络输出的碱基概率信息直接连接算数编码;
利用算术编码编码待压缩碱基的概率,将碱基预测概率转换为压缩比特流输出到压缩结果文件。
7.根据权利要求1所述的基于深度学习的基因组数据无损压缩方法,其特征在于,所述非局部特征包括上下游基因调控关联信息。
8.根据权利要求1所述的基于深度学习的基因组数据无损压缩方法,其特征在于,所述深度学习模型中卷积核的大小由要提取的模态序列的长度及串联重复的长度来定。
9.根据权利要求3所述的基于深度学习的基因组数据无损压缩方法,其特征在于,所述深度学习模型学习得到基因组序列的上下文关系特征,还包括:
所述卷集神经网络进行局部特征提取时,利用卷积神经网络的稀疏连接和权值共享,规避碱基序列当中的测序错误,提取碱基序列当中的局部相关特征。
10.根据权利要求3所述的基于深度学习的基因组数据无损压缩方法,其特征在于,所述深度学习模型学习得到基因组序列的非局部特征,还包括:
利用循环神经网络层对碱基序列的远距离相关性进行分析,利用循环神经网络的层节点全连接结构的长期记忆功能,提取碱基序列当中的非局部相关特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210743081.9/1.html,转载请声明来源钻瓜专利网。





