[发明专利]一种基于DBN的序列错误数预测方法有效
申请号: | 201910519139.X | 申请日: | 2019-06-17 |
公开(公告)号: | CN110189797B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 林劼;沈琳;江育娥 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B40/00;G06N3/04 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dbn 序列 错误 预测 方法 | ||
1.一种基于DBN的序列错误数预测方法,其特征在于:其包括以下步骤:
步骤1,计算序列以及整个数据集的K-mers词频;
步骤1.1,假设数据集中每条序列的长度为m,K-词处理的窗口为k,其中1≤k≤m,则总共有4^k种K-mers,每条序列有(m-k+1)个K-mers,由此得出每条序列对应于每种K-词的数量,即每条序列的K-mers词频;
步骤1.2,将每条序列的每种K-mer数量逐一相加,即得到整个数据集对应于每种K-mer词的数量,即整个数据集的K-mers词频;
步骤2,计算每条序列的错误数:将序列比对到大型基因组上,得到序列的错误数;对于比对不上的序列,将其错误数设定为其K-mers个数,即m-k+1;
步骤3,数据整理:整理上述步骤得到的每条序列的K-mers词频以及整个数据集的K-mers词频作为每条序列的特征值,并将每条序列的错误数作为标签,最终整合成用于神经网络回归的输入数据集D;
步骤4,对输入数据集D进行归一化并打乱顺序;
步骤5,训练集、测试集的划分:将步骤4得到的归一化后的数据集,按照留出法将数据分为训练集和测试集;
步骤6,基于深度置信网络构建神经网络模型;
步骤6.1,运用三个受限玻尔兹曼机堆叠成深度置信网络;
步骤6.2,在深度置信网络之后加上一个与玻尔兹曼机具有类似网络结构的神经网络,以进行回归;
步骤7,基于神经网络进行回归:将训练集数据输入到上述神经网络中进行回归,预测出每条序列的错误数,并用测试集验证回归的准确 率。
2.根据权利要求1所述的一种基于DBN的序列错误数预测方法,其特征在于:步骤1中的数据集为一个具有n条序列的序列集,因此得到的序列的K-mers词频是一个具有n行4k列的矩阵,由每条序列的K-mers数相加后得到的数据集的K-mers词频为一个一行4k列的矩阵,为了将其作为每条序列的特征,因此将数据集的K-mers词频扩展为一个n行4k列的矩阵。
3.根据权利要求1所述的一种基于DBN的序列错误数预测方法,其特征在于:步骤2中使用BWA软件将序列比对到大型基因组上并得到序列的错误数,BWA软件通过BWT压缩算法为大型参考基因组建立索引,然后将序列比对到基因组,以得到序列的错误数。
4.根据权利要求1所述的一种基于DBN的序列错误数预测方法,其特征在于:步骤4中描述的数据归一化为将原始数据经过数据标准化处理后,使各指标处于同一数量级;同时对数据进行乱序化,使得数据分布更加均匀,以使模型能训练到大多数类型的样本。
5.根据权利要求1所述的一种基于DBN的序列错误数预测方法,其特征在于:步骤5中使用的“留出法”直接讲输入数据划分为两个互斥的集合,其中一个集合作为训练集S,另外一个作为测试集T,即D=S∪T,S∩T=∅。
6.根据权利要求1所述的一种基于DBN的序列错误数预测方法,其特征在于:步骤6中的深度置信网络DBN是由多个受限玻尔兹曼机层组成的,受限玻尔兹曼机层是一种层内无连接,层间全连接的神经网络,其包含了可见层和隐含层两层;在DBN之后加上一个神经网络,最终用于回归预测序列的错误数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910519139.X/1.html,转载请声明来源钻瓜专利网。