[发明专利]一种基于深度森林和PU学习的药物-靶标关系预测方法有效

申请号：	202011423290.2	申请日：	2020-12-08
公开（公告）号：	CN112652355B	公开（公告）日：	2023-07-04
发明（设计）人：	彭利红;田雄飞;周立前;王娟娟	申请（专利权）人：	湖南工业大学
主分类号：	G16B5/00	分类号：	G16B5/00;G16B15/30;G16B30/10;G16B40/00;G06F17/16
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	杨千寻;杜梅花
地址：	412000***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度森林 pu 学习药物靶标关系预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度森林和PU学习的药物-靶标关系预测方法，其特征在于，包括以下步骤：

S1、获取药物的结构信息、靶标的序列信息和已知的药物-靶标关系；

S2、采用PU学习来筛选潜在的药物-靶标负相关关系；

S21、构建药物-靶标正相关关系矩阵Y₁，药物-靶标矩阵每一行对应一个药物，每一列对应一个靶标；若已知药物d_i和靶标t_j存在关系，则Y₁(i,j)等于1；否则，Y₁(i,j)等于0；其中i＝1,2,…,m；j＝1,2,…,n；m和n分别为已知的药物和靶标的个数；

S22、定义{p_k,k＝1,2,...,|P|}为所有的已知药物-靶标正相关关系的特征向量集合，{u_z,z＝1,2,...,|U|}为所有的未知药物-靶标关系的特征向量集合，|P|为已知的药物-靶标正相关关系的数量，|U|为未知药物-靶标关系的数量；其中若已知药物d_i和靶标t_j存在关系，则药物相似性矩阵与靶标相似性矩阵连结之后的特征向量为特征向量p_k，维度为W，即n+m；若已知药物d_i和靶标t_j未知关系，则药物相似性矩阵与靶标相似性矩阵连结之后的特征向量为特征向量u_z，维度为W，即n+m；其中药物相似性矩阵表示药物结构相似性矩阵Sim_d的第i行，靶标相似性矩阵表示靶标相似性矩阵Sim_t的第j列；

S23、根据所有的已知药物-靶标关系的特征向量集合{p_k,k＝1,2,...,|P|}，计算正样本标准化向量p，计算公式如下：

p＝p+p_k,k＝1,2,...,|P|

对正样本向量p进行标准化，公式为：

p＝p/|P|

其中|P|为已知的药物-靶标正相关关系的数量；

S24、根据正样本标准化向量p，计算所有的未知药物-靶标关系的特征向量与正样本标准化向量p的平均距离并标准化，计算公式如下：

对平均距离进行标准化，公式为：

dist_ave＝dist/|U|

其中|U|为未知的药物-靶标关系的数量；W为药物相似性矩阵与靶标相似性矩阵连结之后的特征向量的维度；

S25、根据标准化平均距离dist_ave，计算所有的未知药物-靶标关系的特征向量{u_z,z＝1,2,...,|U|}与正样本标准化向量p的欧式距离，计算公式如下：

其中|U|为未知的药物-靶标关系的数量；W为药物相似性矩阵与靶标相似性矩阵连结之后的特征向量的维度；

若某个未知药物-靶标关系的特征向量u_z与标准化平均距离p的欧式距离dist_z大于标准化平均距离dist_ave，则将这个未知药物-靶标关系的特征向量u_z合并到可靠的负样本集RN中；对可靠的负样本集RN从大到小进行排序，从可靠的负样本集RN中选择负样本与正样本的比例为n:1的数量作为潜在的药物-靶标负相关关系，构成筛选的潜在药物-靶标负相关关系的特征向量集合{rn_k,k＝1,2,…,n*|P|}；

S26、基于构建的药物-靶标正相关关系矩阵Y₁，根据筛选的潜在的药物-靶标负相关关系构建药物-靶标关系矩阵Y₂，每一行对应一个药物，每一列对应一个靶标；若药物d_i和靶标t_j为筛选的潜在的负相关关系，则Y2(i,j)等于-1；否则，Y₂(i,j)等于0；其中i＝1,2,...,m；j＝1,2,...,n；m和n分别为已知的药物和靶标的个数；

S3、采用深度森林方法来预测潜在的药物-靶标关系；

S31、结合所有的已知药物-靶标正相关关系的特征向量集合{p_k,k＝1,2,...,|P|}和筛选的潜在的药物-靶标负相关关系的特征向量集合{rn_k,k＝1,2,...,n*|P|}，构建药物-靶标关系的正负相关关系的特征向量集合{I_k,k＝1,2,...,(n+1)*|P|}；

S32、使用三个不同大小的滑动窗口机制对药物-靶标关系的正负相关关系的特征向量集合{I_k,k＝1,2,...,(n+1)*|P|}进行处理，得到三个不同大小类型的子特征向量，并将三个不同大小类型的子特征向量分别用于训练随机森林和完全随机森林，得到三个不同大小类型的类概率向量；其中，滑动窗口的三个不同大小分别是步长为l；

S33、基于步骤S32产生的三个不同大小类型的类概率向量，使用级联森林结构对类概率向量进行分类；其中，每一层级联层中都包括三层结构，且每个结构都是由n₃个随机森林和n₄个完全随机森林构成；在级联森林结构中，为了降低过拟合的风险，每个森林生成的类向量是通过g折交叉验证产生的；即每个样本都会被当作训练数据训练g-1次，生成g-1个类c维向量，然后对其取平均值即为这个森林最终特征向量，将这n₃+n₄个森林的c维特征向量连在一起，作为下一层的增强特征向量；在扩展一个新的层后，整个级联森林的性能将在验证集上进行评估，如果没有显着的性能提升，训练过程将终止；因此，级联森林中层的数量是自动确定的；最后，产生n₃+n₄个c维的类向量d_i，i＝1,2，...(n₃+n₄)；

S34、基于步骤S33产生的n₃+n₄个c维的类向量d_i，i＝1,2，...(n₃+n₄)，计算最终的分类类别，计算公式如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南工业大学，未经湖南工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011423290.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种建筑施工用虚线均匀涂刷设备
下一篇：物联网终端的共享升级方法、装置、物联网终端及介质

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度森林和PU学习的药物-靶标关系预测方法有效

专利文献下载