[发明专利]基于stacking集成的RNA中N6 有效
| 申请号: | 202010021486.2 | 申请日: | 2020-01-09 |
| 公开(公告)号: | CN111161793B | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 于彬;禹昭敏;王磊;陈瑞欣 | 申请(专利权)人: | 青岛科技大学 |
| 主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B20/30;G16B30/10;G16B40/00 |
| 代理公司: | 昆明普发诺拉知识产权代理事务所(特殊普通合伙) 53209 | 代理人: | 葛玉军 |
| 地址: | 266100 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 stacking 集成 rna base sup | ||
1.一种基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法,其特征在于包括以下步骤:
1)收集RNA中N6-甲基腺苷修饰位点信息:获得3个不同物种RNA的N6-甲基腺苷修饰位点数据集,包括正负数据集的RNA样本序列以及所对应的类别标签,确定训练集与测试集;
2)特征编码:使用序列衍生信息编码RNA序列,将字符信息转化成机器学习可识别的数值向量,融合6种特征提取方法对应的不同类型信息的特征向量,得到原始数据集的初始特征空间;
3)特征选择:对初始特征空间,利用弹性网络对其进行降维,剔除冗余、噪声特征,保留对模型分类相关的重要特征,得到最佳特征集合;
4)训练预测模型:把弹性网络对应的最优特征子集以及所对应的类别标签输入到stacking集成中进行模型训练,并结合评价指标评估模型的预测性能,得到预测模型;
5)N6-甲基腺苷修饰位点预测:将测试集中待预测的RNA序列,输入至步骤4)中的预测模型中,预测该RNA序列是否包含N6-甲基腺苷修饰位点并输出;
所述步骤1)包括如下子步骤:
1-1)选择酿酒酵母、智人和拟南芥三个物种真实的数据;其中酿酒酵母的数据集S.cerevisiae作为训练集,智人的数据集H.sapiens和拟南芥的数据集A.thaliana作为测试集;
1-2)训练集和测试集中含有N6-甲基腺苷修饰位点的RNA作为正样本,非N6-甲基腺苷修饰位点的RNA作为负样本;
1-3)S.cerevisiae数据集样本序列是以共同基序GAC为中心,窗口大小为51,当样本序列在某些位置不存在核苷酸时,缺少核苷酸使用其对称位置的核苷酸填充;数据集中包括1307条正样本以及从总数为33,280条负样本的数据集中随机选取的1307条负样本;
1-4)H.sapiens数据集中样本窗口大小为41,若序列样本实际长度小于窗口大小,则缺少的核苷酸用其最临近的相同核苷酸填充;该测试集中正负数据集数目保持一致,均为1130;A.thaliana数据集使用CD-HIT程序剔除序列相似性高于60%的样本,减少序列同源性偏差,数据集中包含394条正样本和394条负样本,样本窗口大小为25;
所述步骤2)中,6种特征编码方法为二进制编码、化学性质、核苷酸频率、k-mer核苷酸频率、伪二核苷酸组成和位置特异性三核苷酸倾向特征提取方法;
所述二进制编码特征提取方法能够准确描述样本序列中每个位置的核苷酸,该特征提取方法将RNA序列中包含的四种核苷酸:腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C)和尿嘧啶(U),依次编码成4维二进制向量;
所述化学性质特征提取方法考虑到四种核苷酸具有不同的化学性质,依据环数、化学功能以及二级结构将A,C,G,U可以划分为三种不同类型的组,每种核苷酸用三维向量表示;
所述核苷酸频率特征提取方法计算RNA序列中特定位置核苷酸的密度,反映N6-甲基腺苷修饰位点附近核苷酸的组成和频率;对于长度为L的样本,将生成L-1维的特征向量;
所述k-mer核苷酸频率特征提取方法基于相邻核苷酸对会影响RNA序列的结构和功能的原理,计算相邻核苷酸在样本序列中出现的频率,反映N6-甲基腺苷修饰位点和非N6-甲基腺苷修饰位点序列背景之间的差异性,每条样本序列生成16维的特征向量;
所述伪二核苷酸组成特征提取方法考虑到RNA序列的局部和全局序列信息,生成16+λ维的特征向量,前16个元素反映了RNA序列中的短程或者局部序列顺序信息,而剩余的元素表示远程或者全局的序列顺序信息,λ为23,对于每条样本序列生成39维的特征向量;
所述位置特异性三核苷酸倾向特征提取方法基于单链的位置特异性三核苷酸倾向描述RNA的统计意义,对于RNA序列,将生成43=64种三核苷酸,其三核苷酸位置特异性可以用64×(L-2)的矩阵表示,对于长度为L的RNA序列样本生成L-2维的特征向量;
所述步骤3)中,弹性网络方法使用l1和l2范数正则化进行训练,其中惩罚参数λ1设置为0.1,惩罚参数λ2设置为0.05,共剔除原始特征集合中346维冗余特征,保留165维对模型识别具有重要意义的特征,得到最优特征子集;
所述步骤4)中,训练模型主要包括两个阶段的学习组成,分别为第一阶段的基分类器和第二阶段的元分类器;第一阶段根据初始数据集的特征训练出初级学习器,针对最佳特征集合,选择两个LightGBM和两个SVM作为基分类器,得到预测概率的输出值;第二阶段将初级分类器的概率输出作为输入特征,以纠正第一层的不准确训练,减少泛化误差,用于训练次级学习器,将第一阶段的概率输出值和最佳特征集合进行组合得到组合特征,选择SVM作为元分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010021486.2/1.html,转载请声明来源钻瓜专利网。





