[发明专利]基于机器学习的数据分类方法及系统有效
申请号: | 201711235660.8 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108021940B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 黄自力;杨阳;陈舟;朱浩然 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F18/24 | 分类号: | G06F18/24;G06F18/27;G06F18/214;G06F18/21 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 王星;杨美灵 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 数据 分类 方法 系统 | ||
本发明涉及一种基于机器学习的数据分类方法,包括:形成与第一批多种机器学习算法相对应的第一批多个分类模型;利用第一批多个分类模型中的各分类模型分别对第一数据特征进行分类计算;设立第N批多个迭代模型,基于第二数据特征进行学习训练;利用各迭代模型分别对第二数据特征进行分类计算;衡量第二分类结果与期望分类结果的接近程度;若接近程度满足第一条件,方法结束;否则,迭代执行迭代模型的设立步骤。该方法能够实现“类深度学习”的效果,这极大提升了数据分类的普适性和准确性。同时,这种数据分类方法可信度高,人工干预程度低。
技术领域
本发明涉及机器学习技术领域,更具体地说,涉及一种基于机器学习的数据分类方法及系统。
背景技术
在大数据安全分析领域,在进行正常/危险标签识别时,如在恶意网页的识别分类,常常先要根据安全人员对场景与问题的测评分析,然后选择具体的机器学习算法来进行训练与测试,但是识别结果会过多取决于单一机器学习算法的合适程度以及模型调优的时间,而通常无法有一定的普适性,即知识迁移的能力。
机器学习算法在进行事物识别与分类前,必须要进行业务场景的精确分析与研究,即必须由具备相关领域专业知识的技术人员以经验为向导,选择、设计或优化其中一至多种机器学习分类算法,来实现与具体领域相关的分类识别。
以下介绍一些现有的基于机器学习的安全检测和/或识别方法,以及各自特点与缺陷。
1.基于特定机器学习方法
从大数据的角度,根据具体场景,选择特定的机器学习算法(例如朴素贝叶斯在垃圾邮件识别有很强的适用性)来进行建模,训练与测试数据、并实现分类。此方法可智能检测安全威胁,但对于算法的选取与模型的优化有较高的要求,如若没有选择到合适的算法,则最终的分类效果可能并不理想。
2.模型参数对分类效果极其敏感
当选定了指定的机器学习算法,对于数据的训练,需要通过技术人员根据经验,反复地调节参数,来观察模型最终的分类效果。在这一过程中,参数的调节对结果的影响是关键的,这取决于专业人员的技术水平、以及所花费的时间。
3.某一算法对多分类器的组合效果有显著影响
采用多机器学习切割融合方法,将一个整体架构,根据需求,拆分成多个部分,每个部分可根据不同的算法进行分析,最终将所有结果汇总组合,例如身份识别,分为人像的匹配识别算法与身份证号或姓名的匹配算法,两个部分所采用的算法不同且互不干扰,最终将识别结果汇总即可。但是,如果某一部分算法的识别效果较差,会影响汇总结果;此外,若不同部分算法产生相互矛盾的结果,分类器将左右为难,而再次需要人工介入。
4.主辅组合方法与场景关联过高
采用多机器学习互补方法,以一个算法为主,其他算法为辅,分析问题。例如AlphaGo人工智能,以蒙特卡洛树搜索为主算法,再配合价值网络等算法辅助完善其功能。这种方法有主辅之分,与具体场景会关联紧密;若涉及到不同场景的检测问题,有可能需要完全改变模型,因此不具备普适性。
5.多种机器学习算法线性组合或简单投票
“多种机器学习算法线性组合或简单投票”方法一般会选择多个机器学习算法各自训练与分类,将最后的结果进行“线性组合”或“简单投票”,得到最终的分类结果。即使这种方法的优势在于对多个算法进行了结合应用,但是“组合器”或“投票器”的应用又容易为分类过程引入相当程度的主观因素或经验因素,使得分类过程又偏离了机器学习-机器分类的目标。
因此,技术人员期望获得一种结合多种机器学习算法、并能克服上述各种缺陷的数据分类方法。
发明内容
本发明的目的之一在于提供一种基于机器学习的数据分类方法,其可信度高、人工干预程度低。
为实现上述目的,本发明提供一种技术方案如下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711235660.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:提高电子产品散热效率的冷却机构
- 下一篇:一种剪切机自动控制系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置