[发明专利]一种基于DBN的序列错误数预测方法有效

申请号：	201910519139.X	申请日：	2019-06-17
公开（公告）号：	CN110189797B	公开（公告）日：	2022-10-21
发明（设计）人：	林劼;沈琳;江育娥	申请（专利权）人：	福建师范大学
主分类号：	G16B30/10	分类号：	G16B30/10;G16B40/00;G06N3/04
代理公司：	福州君诚知识产权代理有限公司 35211	代理人：	戴雨君
地址：	350108 福建省福州***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 dbn 序列错误预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于DBN的序列错误数预测方法，其包括以下步骤：步骤1，计算序列以及整个数据集的K‑mers词频；步骤2，计算序列的错误数；步骤3，数据归一化并乱序化；步骤4，划分训练集、测试集；步骤5，基于DBN构建神经网络模型；步骤6，预测序列的错误数。本发明通过使用DBN进行回归，对生物序列的错误数进行预测，试图在回归预测的层面上对生物序列进行分析，以期能从大量的生物序列数据中获得隐藏的有价值的生物信息，从而使得现有技术中存在的预测结果不够准确、合理的问题得到缓解。

技术领域

本发明涉及生物序列信息研究领域，尤其涉及一种基于DBN的序列错误数预测方法。

背景技术

随着科学技术的迅猛发展，生物信息学逐渐兴起，人们所能获得的生物序列数据越来越多，通过研究来发现隐藏在大量生物数据中的信息,成为了一项越来越有意义的工作。生物序列分析则是生物信息学领域重要的基础性研究工作。神经网络成为了生物序列分析的重要方法。

序列纠错是生物序列分析的一个重要的内容。而如何识别序列的错误数是序列纠错的前提。神经网络能够根据序列的特征进行训练，回归后预测出序列的错误数，从而达到识别序列错误数的目的，为生物序列分析提供了重要手段，也为生物信息学的发展做出了贡献。

发明内容

本发明的目的在于提供一种基于DBN的序列错误数预测方法。

本发明采用的技术方案是：

一种基于DBN的序列错误数预测方法，其包括以下步骤：

步骤1，计算序列以及整个数据集的K-mers词频

步骤1.1，假设数据集中每条序列的长度为m，K-词处理的窗口为k，其中1≤k≤m，则总共有4^k种K-mers，每条序列有m-k+1个K-mers，由此可得出每条序列对应于每种K-词的数量，即每条序列的K-mers词频；

步骤1.2，将每条序列中，每种K-mer数量逐一相加，即可得到整个数据集对应于每种K-mer词的数量，即整个数据集的K-mers词频；

步骤2，计算每条序列的错误数：利用软件BWA将序列比对到大型基因组上，得到序列的错误数。对于比对不上的序列，将其错误数设定为其K-mers个数，即m-k+1

步骤3，数据整理：整理上述步骤得到的每条序列的K-mers词频以及整个数据集的K-mers词频作为每条序列的特征值，并将每条序列的错误数作为标签，最终整合成用于神经网络回归的输入数据集D；

步骤4，对输入数据集D进行归一化并打乱顺序；

步骤5，训练集、测试集的划分：将步骤4得到的归一化后的数据集，按照留出法，将数据分为训练集和测试集；

步骤6，基于深度置信网络(DBN)构建神经网络模型

步骤6.1，运用三个受限玻尔兹曼机(RBM)堆叠成深度置信网络

步骤6.2，在深度置信网络之后加上一个与RBM具有类似网络结构的神经网络，以进行回归

步骤7，基于神经网络进行回归：将训练集数据输入到上述神经网络中进行回归，预测出每条序列的错误数，并用测试集验证回归的准去率；

进一步地，步骤1中的数据集为一个具有n条序列的序列集，因此得到的序列的K-mers词频是一个

具有n行4k列的矩阵，由每条序列的K-词数相加后得到的数据集的K-mers词频为一个一行4k列的矩阵，为了将其作为每条序列的特征，因此将数据集的K-mers词频扩展为一个n行4k列的矩阵；

进一步地，步骤2中使用的BWA，是一款将序列与参考基因组进行比对的软件，其主要功能就是进

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福建师范大学，未经福建师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910519139.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种绵羊全基因组重测序分析方法
下一篇：一种基于外周血血浆游离DNA核小体足迹差异的聚类分析方法及应用

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于DBN的序列错误数预测方法有效

专利文献下载