[发明专利]基于频繁模式和机器学习双推荐制的核定位信号预测方法有效
申请号: | 201811523117.2 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109637589B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 沈红斌;郭芸 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B35/00 |
代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 俞磊 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 频繁 模式 机器 学习 推荐 核定 信号 预测 方法 | ||
1.一种基于频繁模式和机器学习双推荐制的核定位信号预测方法,其特征在于,包括如下步骤:
S1、组建核定位信号训练集与非核定位信号训练集,分别作为正负样本;
S2、利用已知的词向量模型提取正负样本中每个基序的词向量特征;
S3、提取正负样本中每个基序的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB、平均等电点C和平均相对分子式量M;
S4、用SVM中的RBF函数训练模型训练词向量特征,得到最佳SVM模型;
S5、根据S3中提取的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C,构建线性打分PC模型;
S6、对于查询序列,滑动窗口切分输入的序列,得到一系列片段,计算这些片段的平均保守分数R,将R的极值对应的序列作为候选NLS;
S7、利用S3中提取的平均相对分子式量M进行第一次候选集筛选,得到M在100到160之间的候选集,再将筛选后的候选集经由基于机器学习的核定位信号预测方法构建的模型得到对应的NLS分数,记作G2;
S8、将G2分数超过设定阈值的候选集进行片段拼接,拼接结果即为基于机器学习模型预测的NLS;
S9、对于查询序列,将它经由基于频繁模式的核定位信号预测方法构建的模型得到一系列候选NLS及其对应的NLS分数,记作G1,超过富集分数E′S阈值或超过G1阈值的候选NLS即为基于频繁模式模型预测的NLS;
S10、由用户选择推荐方式,将对应推荐方式下的候选NLS作为预测的NLS。
2.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测方法,其特征在于,步骤S1中所述组建核定位信号训练集与非核定位信号训练集的方法为从NLSdb 2003年版以及2017年版的数据库中选择具有亲本蛋白、有特定形式且被实验验证的145个NLS作为正样本,负样本与正样本长度一一对应且来自同一个序列。
3.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测方法,其特征在于,步骤S2中所述的词向量模型为Xiaofeng Fu的“Prediction of type IIIsecreted effectors based on word-embeddings for protein sequences”中的词向量模型,数据库是UniRef50,滑动窗口是3。
4.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测方法,其特征在于,步骤S5的具体方法如下:
S51、分别计算正负样本的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C;
S52、将所得的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C加上正负类标签,利用极端随机树分析得到三个特征的权重;
S53、根据平均疏水值H越小越好,甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C越大越好的NLS特性,将它们分别线性映射到0.5到1之间的值,得到三个线性函数;
H=0.5*(max(H+)-H)/(max(H+)-min(H+))+0.5
GB=0.5*(GB-min(GB+))/(max(GB+)-min(GB+))+0.5
C=0.5*(C-min(C+))/(max(C+)-min(C+))+0.5
其中,H+、GB+和C+分别为正样本的平均每个氨基酸的疏水值H、甘氨酸与碱性氨基酸个数差值的绝对值GB、平均每个氨基酸的等电点C;
S54、根据三个线性函数,结合S52中三个特征的权重,进行加权求和,得到最终的线性打分PC模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811523117.2/1.html,转载请声明来源钻瓜专利网。