[发明专利]基于句法模式识别的药物小分子毒性预测的方法在审
| 申请号: | 202010460271.0 | 申请日: | 2020-05-27 |
| 公开(公告)号: | CN111640470A | 公开(公告)日: | 2020-09-08 |
| 发明(设计)人: | 牛张明;韦德·门佩斯-史密斯 | 申请(专利权)人: | 牛张明;韦德·门佩斯-史密斯 |
| 主分类号: | G16C20/30 | 分类号: | G16C20/30;G16C20/70;G16B15/30;G16B40/00;G06F40/211;G06F40/30;G06F40/253 |
| 代理公司: | 上海智晟知识产权代理事务所(特殊普通合伙) 31313 | 代理人: | 张东梅 |
| 地址: | 浙江省杭州市钱塘*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 句法 模式识别 药物 分子 毒性 预测 方法 | ||
本发明公开了一种基于句法模式识别的药物小分子毒性预测的方法,包括:获取数据集;对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,然后进行去重复化处理;对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个基元片段。每个基元片段本身是具有化学意义和指向性的,任何基元片段的组合也是符合化学规则,所述所有分子的SMILES表达式转换为向量组合;构建句法模式识别模型;将向量组合输入所述句法模式识别模型,预估分子是否含有特定靶标的毒性;以及对所述句法模式识别模型进行评估。
技术领域
本发明涉及化学信息学和生物信息学领域。具体而言,本发明涉及基于句法模式识别的药物小分子毒性预测的方法。
背景技术
针对靶标的毒性预测一直是新药开发的一个重要任务。化合物的毒性评估,是所有药物安全性评估的重要步骤。然而由于其传统药理学实验成本高昂,往往需要投入许多时间和金钱。因此,开发毒性预测工具,有利于加快开展传统动物毒理学研究,加速药物研发。
得益于高性能计算和机器学习方法的发展,我们可以准确地预测成千上万化合物的毒性。并且近几十年来,随着实验数据的爆炸性增长,深度学习应用在了药物开发的各个领域,包括虚拟筛选、化学性质预测和从头分子设计。为了探索化合物结构与毒性的关系,美国国立卫生研究院,环境保护署和食品与药物管理局共同参与的联邦合作项目开展了Tox21计划,旨在开发更好的毒性评估方法,希望快速有效地评估某些化合物是否具有毒性的可能。Tox21计划收集了包括来自不同靶点测定的核受体信号转导和应力通路分析数据,通过分析这些分子对多种核受体通路相关蛋白和压力响应通路蛋白的结构-毒性关系,可能在药物开发过程中排除某些对人体有潜在毒性的药物分子。
除了将分子图用于分子表示外,随着生成模型的流行,大多数的研究者都非常关注分子线性表示法,很多研究均使用简化分子线性输入规范(simplified molecularinput line entry specification,SMILES)作为输入,来描述具有特定性质的新分子。根据分子的拓扑结构,机器学习模型可以直接学习化合物的分子性质。而且,使用SMILES输入到基于句法模式识别的深度学习模型中进行化合物毒性预测,有助于简化输入的同时达到可靠的结果。
发明内容
为解决上述问题,本发明采用多任务的句法模式识别深度学习模型,借鉴NLP中的序列学习方法,以获得方便的建模以及可观的预测性能。利用该算法进行预测的准确性和适用范围将会得到很大的提高。本发明基于深度学习模型,能有效的提取输入信息的特征,包括许多未发现的隐藏特征规律,提供更精准的预测结果。
根据本发明的一个方面,提供一种基于句法模式识别的药物小分子毒性预测的方法,包括:
获取数据集;
对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,然后进行去重复化处理;
对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个基元片段。每个基元片段本身是具有化学意义和指向性的,任何基元片段的组合也是符合化学规则,所述所有分子的SMILES表达式转换为向量组合;
构建句法模式识别模型;
将向量组合输入所述句法模式识别模型,预估分子是否含有特定靶标的毒性;以及
对所述句法模式识别模型进行评估。
在本发明的一个实施例中,所述数据集包括11764个化合物以及它们对应的靶标或靶点数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于牛张明;韦德·门佩斯-史密斯,未经牛张明;韦德·门佩斯-史密斯许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010460271.0/2.html,转载请声明来源钻瓜专利网。





