[发明专利]一种通信网络风险评估的分布式随机森林方法在审

申请号：	202011315706.9	申请日：	2020-11-21
公开（公告）号：	CN112418311A	公开（公告）日：	2021-02-26
发明（设计）人：	李德权;方润月;申修宇	申请（专利权）人：	安徽理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06Q10/06
代理公司：	北京同辉知识产权代理事务所(普通合伙) 11357	代理人：	张明利
地址：	232001 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种通信网络风险评估分布式随机森林方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种通信网络风险评估的分布式随机森林方法，包括数据预处理阶段、模型的离线训练阶段以及在线预测阶段，其特征在于:通过数据预处理阶段将训练数据划分为最佳数量的分区，使所提出的模型能够加速并行和分布式训练任务，将分区后的数据划分为训练集和测试集，然后利用spark构建随机森林模型进行训练，最后利用训练后的模型进行在线预测。

2.根据权利要求1所述的一种通信网络风险评估的分布式随机森林方法，其特征在于，所述数据预处理阶段由于跨节点的数据分布对于并行和分布式计算的效率至关重要，利用spark中的RDD技术进行分区操作，并且将训练数据划分为最佳数量的分区，使所提出的模型能够加速并行和分布式训练任务，设置N_p为分区数目的集合，Time(RDD_train,n_p)表示根据参数n_p计执行训练任务所需的计算时间的函数，最优分区数为：使得

其中是分区的最佳数，得到最优分区后，对分区后的数据进行训练集和测试集的划分，以最终进行模型的训练和测试。

3.根据权利要求1所述的一种通信网络风险评估的分布式随机森林方法，其特征在于，所述离线训练阶段利用spark构建随机森林模型，在模型构建过程中，利用bootstrap对训练数据进行采样生成新的训练数据，并从新的训练数据中根据基尼指数选择最优的特征以进行树的划分，最后集成每棵树构建随机森林模型，具体步骤如下

Step 1：输入分区的训练数据集

for train of each partition do

Step 2：

Step 3：生成随机森林模型{h_i,i＝1,2,...,N_tree}。

4.根据权利要求1所述的一种通信网络风险评估的分布式随机森林方法，其特征在于，所述在线预测阶段基于数据的并行化，以及Python多线程编程和Spark的并行框架，将测试集的每个样本并行分配到工作节点中，利用离线训练过的模型进行最终的预测。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽理工大学，未经安徽理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011315706.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种通信网络风险评估的分布式随机森林方法在审

专利文献下载