[发明专利]基于机器学习的数据分类方法及系统有效

专利信息
申请号: 201711235660.8 申请日: 2017-11-30
公开(公告)号: CN108021940B 公开(公告)日: 2023-04-18
发明(设计)人: 黄自力;杨阳;陈舟;朱浩然 申请(专利权)人: 中国银联股份有限公司
主分类号: G06F18/24 分类号: G06F18/24;G06F18/27;G06F18/214;G06F18/21
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 王星;杨美灵
地址: 200135 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 机器 学习 数据 分类 方法 系统
【说明书】:

发明涉及一种基于机器学习的数据分类方法,包括:形成与第一批多种机器学习算法相对应的第一批多个分类模型;利用第一批多个分类模型中的各分类模型分别对第一数据特征进行分类计算;设立第N批多个迭代模型,基于第二数据特征进行学习训练;利用各迭代模型分别对第二数据特征进行分类计算;衡量第二分类结果与期望分类结果的接近程度;若接近程度满足第一条件,方法结束;否则,迭代执行迭代模型的设立步骤。该方法能够实现“类深度学习”的效果,这极大提升了数据分类的普适性和准确性。同时,这种数据分类方法可信度高,人工干预程度低。

技术领域

本发明涉及机器学习技术领域,更具体地说,涉及一种基于机器学习的数据分类方法及系统。

背景技术

在大数据安全分析领域,在进行正常/危险标签识别时,如在恶意网页的识别分类,常常先要根据安全人员对场景与问题的测评分析,然后选择具体的机器学习算法来进行训练与测试,但是识别结果会过多取决于单一机器学习算法的合适程度以及模型调优的时间,而通常无法有一定的普适性,即知识迁移的能力。

机器学习算法在进行事物识别与分类前,必须要进行业务场景的精确分析与研究,即必须由具备相关领域专业知识的技术人员以经验为向导,选择、设计或优化其中一至多种机器学习分类算法,来实现与具体领域相关的分类识别。

以下介绍一些现有的基于机器学习的安全检测和/或识别方法,以及各自特点与缺陷。

1.基于特定机器学习方法

从大数据的角度,根据具体场景,选择特定的机器学习算法(例如朴素贝叶斯在垃圾邮件识别有很强的适用性)来进行建模,训练与测试数据、并实现分类。此方法可智能检测安全威胁,但对于算法的选取与模型的优化有较高的要求,如若没有选择到合适的算法,则最终的分类效果可能并不理想。

2.模型参数对分类效果极其敏感

当选定了指定的机器学习算法,对于数据的训练,需要通过技术人员根据经验,反复地调节参数,来观察模型最终的分类效果。在这一过程中,参数的调节对结果的影响是关键的,这取决于专业人员的技术水平、以及所花费的时间。

3.某一算法对多分类器的组合效果有显著影响

采用多机器学习切割融合方法,将一个整体架构,根据需求,拆分成多个部分,每个部分可根据不同的算法进行分析,最终将所有结果汇总组合,例如身份识别,分为人像的匹配识别算法与身份证号或姓名的匹配算法,两个部分所采用的算法不同且互不干扰,最终将识别结果汇总即可。但是,如果某一部分算法的识别效果较差,会影响汇总结果;此外,若不同部分算法产生相互矛盾的结果,分类器将左右为难,而再次需要人工介入。

4.主辅组合方法与场景关联过高

采用多机器学习互补方法,以一个算法为主,其他算法为辅,分析问题。例如AlphaGo人工智能,以蒙特卡洛树搜索为主算法,再配合价值网络等算法辅助完善其功能。这种方法有主辅之分,与具体场景会关联紧密;若涉及到不同场景的检测问题,有可能需要完全改变模型,因此不具备普适性。

5.多种机器学习算法线性组合或简单投票

“多种机器学习算法线性组合或简单投票”方法一般会选择多个机器学习算法各自训练与分类,将最后的结果进行“线性组合”或“简单投票”,得到最终的分类结果。即使这种方法的优势在于对多个算法进行了结合应用,但是“组合器”或“投票器”的应用又容易为分类过程引入相当程度的主观因素或经验因素,使得分类过程又偏离了机器学习-机器分类的目标。

因此,技术人员期望获得一种结合多种机器学习算法、并能克服上述各种缺陷的数据分类方法。

发明内容

本发明的目的之一在于提供一种基于机器学习的数据分类方法,其可信度高、人工干预程度低。

为实现上述目的,本发明提供一种技术方案如下。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711235660.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top