[发明专利]一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法有效
| 申请号: | 201910378150.9 | 申请日: | 2019-05-08 |
| 公开(公告)号: | CN110111848B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 许佩佩 | 申请(专利权)人: | 南京鼓楼医院 |
| 主分类号: | G16B40/00 | 分类号: | G16B40/00;G06N3/0464;G06N3/0442;G06N3/048;G06N3/047;G06N3/084 |
| 代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
| 地址: | 210008 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 rnn cnn 神经网络 融合 算法 人体 周期 表达 基因 识别 方法 | ||
1.一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,其特征在于,包括如下步骤:
步骤S1:数据预处理,从GEO数据库获取人类时序基因表达谱数据GSE39445,包括人体全血转录组,对原始数据进行缺失修补和时序周期延拓;
步骤S2:对预处理后的数据进行标签,更改数据格式,建立数据训练集;
步骤S3:从数据训练集中选取出若干组周期表达数据,将周期表达数据基于R语言进行热图聚类;
步骤S4:将循环神经网络算法和卷积神经网络算法相结合,搭建RNN-CNN融合神经网络,并对步骤S2建立的数据训练集进行分类训练,得到对时序基因表达谱数据进行周期与非周期基因亚型分类的分类结果;
RNN-CNN融合神经网络搭建的步骤包括:
步骤一:搭建循环神经网络外循环体RNN,循环神经网络RNN采用长短时记忆网络结构,并在RNN结构中额外加入遗忘门结构;
步骤二:搭建卷积神经网络内循环CNN,卷积神经网络CNN采用LeNet-5模型,由两个卷积层、两个池化层以及三个全连接层组成,所述两个卷积层和池化层依次交错连接,所述三个全连接层依次连接于池化层后,在每层节点加入常数偏置项和ReLU激活函数实现深层网络的去线性化,获得矩阵数据Xin,如下式表示:
Xin=X+b;
其中,Xin表示节点最终输入数据,X表示初始输入数据,b表示常数偏置项;
则Xin为最后一层的输入,然后用Softmax回归将神经网络的输出转换成概率分布,如下式表示:
其中,yi为神经网络的原始输出;
步骤三:在每一次迭代过程中随机优化10个参数的损失函数,针对实际输出概率分布与期望输出概率分布的距离,计算交叉熵;所述损失函数是交叉熵损失函数,如下式表示:
其中,p为期望输出概率分布,q表示实际输出概率分布,H(p,q)为交叉熵;
然后针对上述交叉熵,计算得到代价函数,如下式表示:
其中,m表示训练样本的个数,θ表示算法中需要训练的参数,Hθ(x)表示交叉熵损失函数;
然后设定初始θ,采用完全梯度下降算法,不断改变θ,得到下式:
其中,i=1、2、…、m,表示样本个数,α为学习速率参数,α值为0.001;
然后采用随机梯度下降算法,对于从1到m的样本使用一个数据来变换一个参数,得到下式:
其中,α为学习速率参数,α值为0.001;
步骤四,在RNN基本框架基础上,将CNN嵌套入RNN的循环体内,取代RNN内层循环体,同时在内、外循环各自的不同层结构间加入dropout层,然后对循环神经网络外循环体RNN设置10个输入节点,对应一个周期10个时间测试点数据,RNN每个时刻的输入与时序数据时间点数据对应,最终结果为两个输出节点,包括0和1,表示非周期表达基因和周期表达基因。
2.根据权利要求1所述的一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,其特征在于,所述步骤S1包括:
步骤S11:将缺失的时间点对应的数据列用其他周期里面对应相同时间点的数据列来补偿;
步骤S12:将不同周期中随机抽取某一个时间点测试数据列组成一个完整的周期数据,其中,不同周期中的时间点要求对应相同。
3.根据权利要求1所述的一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,其特征在于,所述步骤S2包括:
步骤S21:建立拥有1200组数据的学习数据集,其中,每一个基因的一个周期含有10个数据点,并包含至少十个周期,通过计算机C语言为数据进行标签;
步骤S22:对标签好的数据,将每列数据分别与对应前一个时间点的数据相减,保留结果在当前位置,设减去后的结果为A,同时设置波动值为0.05;当A-0.05时,设置当前值为-1;当-0.05A0.05时,设置当前值为0;当A0.05时,设置当前值为1,最终表达谱数据结果由-1、0、1进行显示,分别表示某一测试点相当于上一测试点的减少、保持以及增加状态。
4.根据权利要求1所述的一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,其特征在于,所述步骤S4中,对数据训练集进行训练的具体步骤包括:
步骤一:开始训练:初始化变量,训练次数为0,选取第一个时刻训练数据进行RNN外部数据输入;
步骤二:数据进入内部CNN循环体,通过前向传播算法获取预测值,通过反向传播算法更新变量,如果达到内层CNN网络设置的训练目标或者达到CNN训练次数,就输出;
步骤三:重新选取时刻数据进行外部RNN数据输入,此时,内部CNN循环体的输入包括上一轮的输出、当前的输入以及遗忘门执行的数据,然后同理执行步骤二的操作;
步骤四:重复执步骤三的操作,直至达到外层RNN网络的训练目标或者达到RNN训练次数,就输出;
步骤五:结束训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京鼓楼医院,未经南京鼓楼医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910378150.9/1.html,转载请声明来源钻瓜专利网。





