[发明专利]一种基于约束条件的随机森林推荐算法在审
| 申请号: | 201611071464.7 | 申请日: | 2016-11-29 |
| 公开(公告)号: | CN106778836A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 喻梅;安永利;于健;高洁;徐天一;马雄 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 李素兰 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 约束条件 随机 森林 推荐 算法 | ||
1.一种基于约束条件的随机森林推荐算法,其特征在于,该方法包括以下步骤:
步骤(101)、根据给定初始训练集中的数据集、在CART算法中利用基尼指数构造二叉决策树,基尼系数定义如公式(1)所示:
其中,GiniR(S)是集合S以特征R分裂产生的基尼系数,S1和S2分别是用样本特征R分裂后得到的子集,定义基尼增益如公式(2)所示:
Gini(R)=Gini(S)-GiniR(S) (2)
步骤(201)、从初始训练集抽取训练子样本,每个子样本特征维度为M,每次树进行分裂时指定一个常数m<<M作为子样本特征个数,从m个子样本特征中选择最优的子样本特征去分裂;每棵树都最大程度的生长,组合成随机森林;
步骤(301)、分类指的是根据样本记录所具有的特征将样本映射到预先定义好的类标号。通过从精确率、召回率和F值分析训练模型所用的时间,衡量算法时间效能,其中:
精确率定义如公式(3)所示:
其中,TP表示把正类预测为正类的案例个数,FP表示把负类预测为正类的案例个数;
召回率定义如公式(4)所示:
其中,FN表示把正类预测为负类的案例个数;
F值定义如公式(5)所示:
其中,Precision为精确率,Recall为召回率;
步骤(401)、以同样的初始训练集中的数据集,分别构造拥有10棵和100棵决策树的随机森林,利用该模型对测试集进行分类,即将各个记录映射到预先定义的类标号,在训练集占比例不同情况下研究算法性能,记录模型训练时间;
步骤(501)、将随机森林算法进行改进,具体步骤如下:
假设有S1,S2,…Sn,n个样本作为随机森林n棵树的训练样本,用Si样本建立决策树模型,Oi为袋外数据,将Oi作为测试集进行预测,计算袋外数据误差EOi;对于特征Fj,将Oi中Fj的值进行噪声化,形成新测试集new_Oi;用新测试集new_Oi进行预测,记录新的袋外数据误差new_EOi,重要特征Fj重要度importancej如公式(6)所示
按重要性降序排列,确定删除比例,从当前的特征中剔除相应比例排在最后的不重要特征,每次选出一个重要特征Fj,以新特征作构造随机森林,递归重复上述步骤,直到剩余m个特征;依据通过上述方法所得到的各个新的重要特征构成重要特征集合和袋外数据,计算分类精确度,选取最优的作为最终特征集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611071464.7/1.html,转载请声明来源钻瓜专利网。





