[发明专利]一种物质气味留香值快速获取方法有效
申请号: | 202110395911.9 | 申请日: | 2021-04-13 |
公开(公告)号: | CN112992286B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 刘旗;骆德汉;温腾腾;易海涛 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G16C20/20 | 分类号: | G16C20/20;G06F16/245;G06F16/215;G06N3/006 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 物质 气味 留香值 快速 获取 方法 | ||
1.一种物质气味留香值快速获取方法,其特征在于,包括步骤:
S1、获取若干已测留香值的物质气味分子的物化特性数据;
S2、对步骤S1获取的物化特性数据进行预处理,得到物化特性数据训练样本;
S3、将所述物化特性数据训练样本输入初始随机森林模型进行模型训练,得到完成训练随机森林模型;
S4、获取待测留香值的物质气味分子的物化特性数据;
S5、对步骤S4获取的物化特性数据进行预处理,得到待测物化特性数据;
S6、将所述待测物化特性数据输入所述完成训练随机森林模型,完成训练随机森林模型预测所述待测物化特性数据的留香值;
步骤S2和步骤S5所述预处理包括步骤:
S21、剔除所述物化特性数据中一部分含有缺失值的特征;
S22、对步骤S21处理后的所述物化特性数据进行方差过滤;
S23、对步骤S22处理后的所述物化特性数据进行标准化处理;
S24、对步骤S23处理后的所述物化特性数据进行特征选择;
在步骤S2所述预处理过程中,步骤S24所述特征选择采用Boruta特征选择算法,包括步骤:
S241、对所述物化特性数据中所有特征进行Shuffle得到阴影特征,将Shuffle后的阴影特征与物化特性数据的原始特征拼接成特征矩阵;
S242、使用所述特征矩阵作为输入,训练初始随机森林分类模型输出feature_importance;
S243、计算真实特征和阴影特征的Z_score;
S244、在阴影特征中找出最大的Z_score记为Z_max;
S245、将Z_socre大于Z_max的真实特征标记为重要,将Z_score小于Z_max的真实特征标记为不重要,并且将标记为不重要的真实特征标记从特征集合中永久剔除;
S246、重复上述S241~S245步骤,直到所有特征都被标记为重要或者不重要;
在步骤S4所述预处理过程中,步骤S24所述特征选择是按照步骤S2经过Boruta特征选择算法保留的特征,对所述物化特性数据中的特征进行筛选。
2.根据权利要求1所述的一种物质气味留香值快速获取方法,其特征在于,步骤S1和步骤S4中,获取所述物化特性数据包括步骤:
S11、通过物质名称查询所述物质气味分子的CAS号;
S12、使用所述CAS号查询所述物质气味分子的SMILES表达式;
S13、通过化学分析软件计算所述SMILES表达式的物化特性数据。
3.根据权利要求2所述的一种物质气味留香值快速获取方法,其特征在于,步骤S21剔除所述物化特性数据中含有缺失值大于50%的特征,并对剩余的含有缺失值的特征进行中值插补。
4.根据权利要求3所述的一种物质气味留香值快速获取方法,其特征在于,步骤S23所述标准化处理采用min-max标准化处理。
5.根据权利要求1所述的一种物质气味留香值快速获取方法,其特征在于,步骤S3所述模型训练包括步骤:
S31、将步骤S2预处理后的物化特性数据划分为训练集、验证集、测试集;
S32、将所述训练集数据输入所述初始随机森林模型进行模型训练;
S33、将所述验证集数据输入所述初始随机森林模型,寻找最佳的参数,得到完成训练随机森林模型;
S34、将所述测试集数据输入所述完成训练随机森林模型,测试完成训练随机森林模型预测留香值的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110395911.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图片处理方法及装置
- 下一篇:一种检修方便的高效节能风机