[发明专利]基于句法模式识别的药物小分子毒性预测的方法在审
| 申请号: | 202010460271.0 | 申请日: | 2020-05-27 |
| 公开(公告)号: | CN111640470A | 公开(公告)日: | 2020-09-08 |
| 发明(设计)人: | 牛张明;韦德·门佩斯-史密斯 | 申请(专利权)人: | 牛张明;韦德·门佩斯-史密斯 |
| 主分类号: | G16C20/30 | 分类号: | G16C20/30;G16C20/70;G16B15/30;G16B40/00;G06F40/211;G06F40/30;G06F40/253 |
| 代理公司: | 上海智晟知识产权代理事务所(特殊普通合伙) 31313 | 代理人: | 张东梅 |
| 地址: | 浙江省杭州市钱塘*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 句法 模式识别 药物 分子 毒性 预测 方法 | ||
1.一种基于句法模式识别的药物小分子毒性预测的方法,包括:
获取数据集;
对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,然后进行去重复化处理;
对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个基元片段。每个基元片段本身是具有化学意义和指向性的,任何基元片段的组合也是符合化学规则,所述所有分子的SMILES表达式转换为向量组合;
构建句法模式识别模型;
将向量组合输入所述句法模式识别模型,预估分子是否含有特定靶标的毒性;以及
对所述句法模式识别模型进行评估。
2.如权利要求1所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,所述数据集包括11764个化合物以及它们对应的靶标或靶点数据。
3.如权利要求1所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,进行去重复化处理包括直接通过比对标准化操作的SMILES实现,完全一致的SMILES被直接去除,
其中对所述数据集进行预处理还包括将每个数据集按一定比例随机划分为训练集、验证集、测试集。
4.如权利要求1所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,所述基元片段包括BE,0,#,[C-],[N@+],[NH2+],[P@H],=,o,[C@@],[CH-],[N+],[o+],[S-],I,s,1,%,[c-],[N],[NH3+],[P+],B,O,[C@@H],[cH-],[nH],[OH+],[s+],l,S,2,(,[c+],[N-],[O],[S@@],C,P,[C@],[CH+],[NH-],[P@@],[S+],L,3,),[C+],[n-],[O-],[s@],c,r,[C@H],[CH2-],[nH+],[P@@H],N,4,/,[CH],[n+],[O+],[S@],F,[C],[N@@+],[NH+],[P@],\,EN,p,其中BE字符作为开始填充单词,EN字符作为结束填充单词,在此基础上,为了填充长度不一样的序列为相同长度,p字符作为补充单词。
5.如权利要求1所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,所述句法模式识别模型,预估分子是否含有特定靶标的毒性包括:将训练集和验证集加载至句法模式识别模型,对模型进行训练和测试,对训练后模型在测试集当中进行毒性预测的测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于牛张明;韦德·门佩斯-史密斯,未经牛张明;韦德·门佩斯-史密斯许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010460271.0/1.html,转载请声明来源钻瓜专利网。





