[发明专利]胶体筛选模型的构建方法和胶体筛选方法在审

申请号：	202010818121.2	申请日：	2020-08-14
公开（公告）号：	CN112133447A	公开（公告）日：	2020-12-25
发明（设计）人：	曹东升;印明柱;陈翔;杨梓宜	申请（专利权）人：	中南大学
主分类号：	G16H70/40	分类号：	G16H70/40;G16C20/50;G06N20/00
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	黄恕
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	胶体筛选模型构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及计算机辅助药物设计技术领域，特别是涉及一种胶体筛选模型的构建方法、装置、计算机设备和存储介质以及胶体筛选方法、装置、计算机设备和存储介质。一个实施例中的方法包括：获取样本数据，样本数据包括胶体聚集化合物样本数据和非胶体聚集化合物样本数据，根据胶体聚集化合物样本数据以及非胶体聚集化合物样本数据，建立定量构效关系；基于定量构效关系、胶体聚集化合物样本数据以及非胶体聚集化合物样本数据，分别采用不同的预设机器学习算法进行模型训练；从已训练的多个机器学习模型中选择最优模型，将最优模型作为胶体筛选模型。后续通过该胶体筛选模型模型进行胶体预测筛选，可以支持胶体的高精度预测筛选。

技术领域

本申请涉及计算机辅助药物设计技术领域，特别是涉及一种胶体筛选模型的构建方法、装置、计算机设备和存储介质以及胶体筛选方法、装置、计算机设备和存储介质。

背景技术

高通量筛选方法广泛应用于药物研发，但大量的假阳性结果使得研究进程发展缓慢。有学者在对假阳性背后机制的研究中发现，88％的假阳性结果是由于胶体聚集化合物引起的，更有甚者，胶体聚集化合物引起的假阳性结果高达95％，真阳性结果只占整体结果的5％。

胶体聚集化合物是由小分子在溶液中聚集形成的半径60—300nm的聚集体，其能够与蛋白表面非特异性结合，诱导蛋白质发生部分折叠，从而使得蛋白质失活。胶体聚集化合物的检测手段一般是在溶液中加入0.01％-0.1％Triton X-100或其他非离子型表面活性剂，但部分化合物在加入后仍能发生胶体聚集现象，即现有的胶体聚集化合物筛选存在准确度低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种提高预测精准度的胶体筛选模型的构建方法、装置、计算机设备和存储介质以及胶体筛选方法、装置、计算机设备和存储介质。

一种胶体筛选模型的构建方法，所述方法包括：

获取样本数据，所述样本数据包括胶体聚集化合物样本数据和非胶体聚集化合物样本数据；

根据所述胶体聚集化合物样本数据以及所述非胶体聚集化合物样本数据，建立定量构效关系；

基于所述定量构效关系、所述胶体聚集化合物样本数据以及所述非胶体聚集化合物样本数据，分别采用不同的预设机器学习算法进行模型训练；

从已训练的多个机器学习模型中选择最优模型，将所述最优模型作为胶体筛选模型。

在一个实施例中，所述基于所述定量构效关系、所述胶体聚集化合物样本数据以及所述非胶体聚集化合物样本数据，分别采用不同的预设机器学习算法进行模型训练，包括：

基于所述定量构效关系，获得不同种类的分子描述符；

根据预设的机器学习算法，构建基于单种分子描述符的第一机器学习模型集合和基于多种分子描述符的第二机器学习模型集合；

根据所述胶体聚集化合物样本数据以及所述非胶体聚集化合物样本数据，分别对所述第一机器学习模型集合和所述第二机器学习模型集合中的模型进行训练。

在一个实施例中，所述根据所述胶体聚集化合物样本数据以及所述非胶体聚集化合物样本数据，分别对所述第一机器学习模型集合和所述第二机器学习模型集合中的模型进行训练，包括：