[发明专利]数据处理方法和装置有效

专利信息
申请号: 201710665195.5 申请日: 2017-08-07
公开(公告)号: CN107403199B 公开(公告)日: 2021-02-26
发明(设计)人: 郑瑞平 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 中国贸促会专利商标事务所有限公司 11038 代理人: 曲瑞
地址: 100195 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 方法 装置
【说明书】:

发明公开了一种数据处理方法和装置,涉及数据处理领域。本发明通过根据决策树对训练数据集中数据的分类结果,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数,再将各个类对应的最高投票数中的最小值确定为该类的判定阈值,能够确定数据被判定为某个类别时所需要满足的最小投票数,从而能够应对各种分类数量的分类问题,提高了分类的准确率。

技术领域

本发明涉及数据处理领域,特别涉及一种数据处理方法和装置。

背景技术

随机森林是一个由许多基础分类器构成的组合分类器,其中的基础分类器为决策树。不同决策树之间是独立同分布的。当输入一个测试样本时,由所有决策树的投票结果来确定最终样本的所属类别。

在实际应用中,为了提升准确率,一种改进方式是加权随机森林方法。

加权随机森林方法针对二分类问题。首先设置叶子节点的投票权重均为0.5,然后向每棵决策树中输入一个完备的训练样本集。当样本到达某个叶子节点后,将该节点的权重调整为判断正确的样本数量与到达叶子节点的样本总数的比值。通过上述的调整过程,以修正分类器中叶子节点的权重。

发明内容

发明人发现,加权随机森林方法只能够解决二分类问题。然而,在实际的应用场景中还存在多分类问题。例如,将图像分类为美食、自然、建筑、人像,将用户分类为20岁以下、20~40岁、40岁以上等等。

针对上述问题,发明人提供了一种用于训练适用于各种分类数量的随机森林模型的数据处理方法。

根据本发明实施例的第一个方面,提供一种数据处理方法,包括:将训练数据集输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果;根据分类结果,统计训练数据集中的每个数据对每个类的投票数,其中,数据对某个类的投票数为数据被判定为该类的次数;对于训练数据集中的每个数据,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数;根据各个类对应的最高投票数中的最小值确定该类的判定阈值,以便对待测数据进行分类。

在一个实施例中,如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级最高的投票数确定为最高投票数。

在一个实施例中,数据处理方法还包括:如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级不是最高的投票数置为修正投票数,其中,同一类对应的投票数和修正投票数之差大于0。

在一个实施例中,根据各个类对应的最高投票数中的最小值确定该类的判定阈值包括:将各个类对应的最高投票数中的最小值确定为该类的判定阈值;或者,将通过不同训练数据集获得的各个类对应的最高投票数中的最小值的均值确定为该类的判定阈值。

在一个实施例中,数据处理方法还包括:根据随机森林模型中的决策树的分类结果和判定阈值对数据进行分类。

在一个实施例中,采用随机森林模型中的决策树的分类结果和判定阈值对数据进行分类包括:将待测数据输入到随机森林模型中的多棵决策树中,获得待测数据在每棵决策树上的分类结果;根据分类结果,统计待测数据对每个类的投票数;在待测数据对每个类的投票数中,将投票数大于或等于判定阈值的类确定为待测数据的分类结果。

在一个实施例中,将投票数大于或等于判定阈值的类确定为待测数据的分类结果包括:将投票数大于或等于判定阈值的类中预设的优先级最高的类确定为待测数据的分类结果;或者,将投票数大于或等于判定阈值的类中投票数最多的类确定为待测数据的分类结果;或者,在投票数大于或等于判定阈值的多个类中,如果预设的优先级最高的类与其他类的投票数之差大于预设值,将预设的优先级最高的类确定为待测数据的分类结果;如果预设的优先级最高的类与其他类的投票数之差不大于预设值,将投票数最多的类确定为待测数据的分类结果。

在一个实施例中,随机森林模型的分类数量大于或等于三类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710665195.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top