[发明专利]一种基于约束条件的随机森林推荐算法在审

申请号：	201611071464.7	申请日：	2016-11-29
公开（公告）号：	CN106778836A	公开（公告）日：	2017-05-31
发明（设计）人：	喻梅;安永利;于健;高洁;徐天一;马雄	申请（专利权）人：	天津大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	天津市北洋有限责任专利代理事务所12201	代理人：	李素兰
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于约束条件随机森林推荐算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于约束条件的随机森林推荐算法，其特征在于，该方法包括以下步骤：

步骤(101)、根据给定初始训练集中的数据集、在CART算法中利用基尼指数构造二叉决策树，基尼系数定义如公式(1)所示：

$<mrow><msub><mi>Gini</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><msub><mi>s</mi><mn>1</mn></msub><mo>|</mo></mrow><mrow><mo>|</mo><mi>s</mi><mo>|</mo></mrow></mfrac><mi>G</mi><mi>i</mi><mi>n</mi><mi>i</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><mo>|</mo><msub><mi>s</mi><mn>2</mn></msub><mo>|</mo></mrow><mrow><mo>|</mo><mi>s</mi><mo>|</mo></mrow></mfrac><mi>G</mi><mi>i</mi><mi>n</mi><mi>i</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>$

其中，Gini_R(S)是集合S以特征R分裂产生的基尼系数，S₁和S₂分别是用样本特征R分裂后得到的子集，定义基尼增益如公式(2)所示：

Gini(R)＝Gini(S)-Gini_R(S) (2)

步骤(201)、从初始训练集抽取训练子样本，每个子样本特征维度为M，每次树进行分裂时指定一个常数m<<M作为子样本特征个数，从m个子样本特征中选择最优的子样本特征去分裂；每棵树都最大程度的生长，组合成随机森林；

步骤(301)、分类指的是根据样本记录所具有的特征将样本映射到预先定义好的类标号。通过从精确率、召回率和F值分析训练模型所用的时间，衡量算法时间效能，其中：

精确率定义如公式(3)所示：

$<mrow><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>=</mo><mfrac><mrow><mi>T</mi><mi>P</mi></mrow><mrow><mi>T</mi><mi>P</mi><mo>+</mo><mi>F</mi><mi>P</mi></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>$

其中，TP表示把正类预测为正类的案例个数，FP表示把负类预测为正类的案例个数；

召回率定义如公式(4)所示：

$<mrow><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>=</mo><mfrac><mrow><mi>T</mi><mi>P</mi><mo>+</mo><mi>T</mi><mi>N</mi></mrow><mrow><mi>T</mi><mi>P</mi><mo>+</mo><mi>F</mi><mi>N</mi></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>$

其中，FN表示把正类预测为负类的案例个数；

F值定义如公式(5)所示：

$<mrow><mi>F</mi><mo>-</mo><mi>S</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mo>=</mo><mfrac><mrow><mn>2</mn><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>*</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi></mrow><mrow><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>+</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>$

其中，Precision为精确率，Recall为召回率；

步骤(401)、以同样的初始训练集中的数据集，分别构造拥有10棵和100棵决策树的随机森林，利用该模型对测试集进行分类，即将各个记录映射到预先定义的类标号，在训练集占比例不同情况下研究算法性能，记录模型训练时间；

步骤(501)、将随机森林算法进行改进，具体步骤如下：

假设有S₁,S₂,…S_n,n个样本作为随机森林n棵树的训练样本，用S_i样本建立决策树模型，O_i为袋外数据，将O_i作为测试集进行预测，计算袋外数据误差EO_i；对于特征F_j，将O_i中F_j的值进行噪声化，形成新测试集new_O_i；用新测试集new_O_i进行预测，记录新的袋外数据误差new_EO_i，重要特征F_j重要度importance_j如公式(6)所示

$<mrow><msub><mi>importance</mi><mi>j</mi></msub><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mi>n</mi><mi>e</mi><mi>w</mi><mo>_</mo><msub><mi>EO</mi><mi>i</mi></msub><mo>-</mo><msub><mi>EO</mi><mi>i</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>$

按重要性降序排列，确定删除比例，从当前的特征中剔除相应比例排在最后的不重要特征，每次选出一个重要特征F_j，以新特征作构造随机森林，递归重复上述步骤，直到剩余m个特征；依据通过上述方法所得到的各个新的重要特征构成重要特征集合和袋外数据，计算分类精确度，选取最优的作为最终特征集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611071464.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于约束条件的随机森林推荐算法在审

专利文献下载