[发明专利]一种基于深度森林和PU学习的药物-靶标关系预测方法有效
申请号: | 202011423290.2 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112652355B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 彭利红;田雄飞;周立前;王娟娟 | 申请(专利权)人: | 湖南工业大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B15/30;G16B30/10;G16B40/00;G06F17/16 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 杨千寻;杜梅花 |
地址: | 412000*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 森林 pu 学习 药物 靶标 关系 预测 方法 | ||
1.一种基于深度森林和PU学习的药物-靶标关系预测方法,其特征在于,包括以下步骤:
S1、获取药物的结构信息、靶标的序列信息和已知的药物-靶标关系;
S2、采用PU学习来筛选潜在的药物-靶标负相关关系;
S21、构建药物-靶标正相关关系矩阵Y1,药物-靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物di和靶标tj存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,…,m;j=1,2,…,n;m和n分别为已知的药物和靶标的个数;
S22、定义{pk,k=1,2,...,|P|}为所有的已知药物-靶标正相关关系的特征向量集合,{uz,z=1,2,...,|U|}为所有的未知药物-靶标关系的特征向量集合,|P|为已知的药物-靶标正相关关系的数量,|U|为未知药物-靶标关系的数量;其中若已知药物di和靶标tj存在关系,则药物相似性矩阵与靶标相似性矩阵连结之后的特征向量为特征向量pk,维度为W,即n+m;若已知药物di和靶标tj未知关系,则药物相似性矩阵与靶标相似性矩阵连结之后的特征向量为特征向量uz,维度为W,即n+m;其中药物相似性矩阵表示药物结构相似性矩阵Simd的第i行,靶标相似性矩阵表示靶标相似性矩阵Simt的第j列;
S23、根据所有的已知药物-靶标关系的特征向量集合{pk,k=1,2,...,|P|},计算正样本标准化向量p,计算公式如下:
p=p+pk,k=1,2,...,|P|
对正样本向量p进行标准化,公式为:
p=p/|P|
其中|P|为已知的药物-靶标正相关关系的数量;
S24、根据正样本标准化向量p,计算所有的未知药物-靶标关系的特征向量与正样本标准化向量p的平均距离并标准化,计算公式如下:
对平均距离进行标准化,公式为:
distave=dist/|U|
其中|U|为未知的药物-靶标关系的数量;W为药物相似性矩阵与靶标相似性矩阵连结之后的特征向量的维度;
S25、根据标准化平均距离distave,计算所有的未知药物-靶标关系的特征向量{uz,z=1,2,...,|U|}与正样本标准化向量p的欧式距离,计算公式如下:
其中|U|为未知的药物-靶标关系的数量;W为药物相似性矩阵与靶标相似性矩阵连结之后的特征向量的维度;
若某个未知药物-靶标关系的特征向量uz与标准化平均距离p的欧式距离distz大于标准化平均距离distave,则将这个未知药物-靶标关系的特征向量uz合并到可靠的负样本集RN中;对可靠的负样本集RN从大到小进行排序,从可靠的负样本集RN中选择负样本与正样本的比例为n:1的数量作为潜在的药物-靶标负相关关系,构成筛选的潜在药物-靶标负相关关系的特征向量集合{rnk,k=1,2,…,n*|P|};
S26、基于构建的药物-靶标正相关关系矩阵Y1,根据筛选的潜在的药物-靶标负相关关系构建药物-靶标关系矩阵Y2,每一行对应一个药物,每一列对应一个靶标;若药物di和靶标tj为筛选的潜在的负相关关系,则Y2(i,j)等于-1;否则,Y2(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数;
S3、采用深度森林方法来预测潜在的药物-靶标关系;
S31、结合所有的已知药物-靶标正相关关系的特征向量集合{pk,k=1,2,...,|P|}和筛选的潜在的药物-靶标负相关关系的特征向量集合{rnk,k=1,2,...,n*|P|},构建药物-靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|};
S32、使用三个不同大小的滑动窗口机制对药物-靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|}进行处理,得到三个不同大小类型的子特征向量,并将三个不同大小类型的子特征向量分别用于训练随机森林和完全随机森林,得到三个不同大小类型的类概率向量;其中,滑动窗口的三个不同大小分别是步长为l;
S33、基于步骤S32产生的三个不同大小类型的类概率向量,使用级联森林结构对类概率向量进行分类;其中,每一层级联层中都包括三层结构,且每个结构都是由n3个随机森林和n4个完全随机森林构成;在级联森林结构中,为了降低过拟合的风险,每个森林生成的类向量是通过g折交叉验证产生的;即每个样本都会被当作训练数据训练g-1次,生成g-1个类c维向量,然后对其取平均值即为这个森林最终特征向量,将这n3+n4个森林的c维特征向量连在一起,作为下一层的增强特征向量;在扩展一个新的层后,整个级联森林的性能将在验证集上进行评估,如果没有显着的性能提升,训练过程将终止;因此,级联森林中层的数量是自动确定的;最后,产生n3+n4个c维的类向量di,i=1,2,...(n3+n4);
S34、基于步骤S33产生的n3+n4个c维的类向量di,i=1,2,...(n3+n4),计算最终的分类类别,计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工业大学,未经湖南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011423290.2/1.html,转载请声明来源钻瓜专利网。