[发明专利]一种基于朴素贝叶斯模型提供特征预测能力方法在审
| 申请号: | 202011174963.5 | 申请日: | 2020-10-28 |
| 公开(公告)号: | CN112215365A | 公开(公告)日: | 2021-01-12 |
| 发明(设计)人: | 何东晓;吕蔚萁;金弟;焦鹏飞 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/00 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 朴素 贝叶斯 模型 提供 特征 预测 能力 方法 | ||
本发明公开了一种基于朴素贝叶斯模型提供特征预测能力方法,包括如下步骤:步骤1、根据所应用的技术领域采集数据集进行特征预处理生成特征数据集;步骤2、提取模型中参数通过十折交叉验证方法,根据特征数据集进行参数调节生成超参数值;步骤3、设置高斯朴素贝叶斯模型的超参数值,使用其fit函数对所述特征数据集进行拟合,同时获得特征值预测概率模型;步骤4、通过柱状图的形式描绘出特征值预测概率模型概率分布情况,该方法使用后验概率提高所应用计算、医学、能源和语音不同领域的特征预测能力,能够准确性、有效性地描绘出所应用相关技术领域的特征预测能力。
技术领域
本发明属于机器学习中特征预测分析领域,尤其涉及一种基于朴素贝叶斯模型提高特征预测能力方法。
背景技术
特征预测能力的检测是机器学习中的一个关键问题,在机器学习中有很多方法可以进行对特征预测能力的检测,他们可以分为两类,第一类基于特征重要性进行特征预测能力的检测,该特征预测方法大量应用在特征选择中,例如:过滤方法使用不同的评价标准来评估特征的重要性;在基于稀疏学习的方法中,多聚类特征选择通过一个带有1-范数正则化的回归模型来度量特征的重要性;基于信息理论的方法利用不同的启发式过滤准则来衡量特征的重要性。此外随机森林方法也经常出现在生物医药方面数据集的特征重要性预测,例如:可以用于从脑信号中检测使得癫痫发作的最突出特征。第二类方法是基于特征概率分布来进行特征预测能力的检测,使用逻辑回归和证据权重的计算方法可以得到不同特征值的预测概率值,例如:逻辑回归可用于遥感数据集中得到特征对类的预测概率并根据其重要性进行排序,它可以在不显著降低软分类和硬分类精度的情况下显著地减少特征。
以上的方法总是单一的从特征的角度来总结预测能力,实际上特征的预测能力通常与特征值变化相关。对于同一个特征,一个特征值大小下的预测能力可能与另一个特征值下的预测能力相差很大。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于高斯朴素贝叶斯(GNB)提高特征预测能力的模型。本发明是通过高斯朴素贝叶斯分类器对采集到的数据集计算每个特征属性/每个列的不同特征值参数的后验概率值,使用后验概率提高所应用计算、医学、能源和语音不同领域的特征预测能力,并以柱状图的形式描绘出不同特征值的概率预测情况即(特征预测能力分布图),本发明与现有技术中采用的逻辑回归方法(LR)、证据权重方法(WOE)和随机森林方法(RF)三种经典的评价特征预测能力的方法进行对比后,充分说明本发明能够准确性、有效性地描绘出所应用相关技术领域的特征预测能力。
为了解决现有技术存在技术问题,本发明采用的如下技术方案:
1)根据所应用的技术领域采集数据集进行特征预处理生成特征数据集;其中:对特征数据集预处理过程包括:
选取特征数集中某一选定特征进行升序排列;
对特征数据集中的数据进行标准化,所述标准化是即每个特征属性/每列数据分别按照减去其均值,并除以其方差,使得每个特征值属性/每列数据都在0单元附近聚集,其方差为1;
2)提取模型中参数通过十折交叉验证方法,根据特征数据集进行参数调节生成超参数值;
3)设置高斯朴素贝叶斯模型的参数值,使用其fit函数对所述特征数据集进行拟合,同时获得特征值预测概率模型,将拟合后的数据代入特征值预测概率模型的公式(1);所述特征值预测概率模型为:
其中,μ表示数据均值,δ表示数据方差,可通过高斯朴素贝叶斯模型的均值方差函数获得。
4)通过柱状图的形式描绘出特征值预测概率模型概率分布情况。
有益效果
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011174963.5/2.html,转载请声明来源钻瓜专利网。





