[发明专利]一种基于智能分析的海量数据样本增量分析方法在审

专利信息
申请号: 202010848785.3 申请日: 2020-08-21
公开(公告)号: CN112070127A 公开(公告)日: 2020-12-11
发明(设计)人: 陈霖;陈昊;杨祎巍;孙强强;匡晓云;许爱东;丘惠军;徐培明;连耿雄 申请(专利权)人: 南方电网科学研究院有限责任公司;深圳供电局有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N20/00
代理公司: 深圳市中兴达专利代理有限公司 44637 代理人: 危祯
地址: 510000 广东省广州市萝岗区科*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 智能 分析 海量 数据 样本 增量 方法
【说明书】:

本发明提供一种基于智能分析的海量数据样本增量分析方法,包括如下步骤:步骤1、利用原始训练数据集D学习出当前分类器C;步骤2、用当前分类器对未标注类别标签的新增训练集T进行分类,针对每一个未标记的新增训练样例,利用Q一学习算法计算其Q值,从T中选择有利于提高当前分类器精度的新增训练实例,并赋予其标签CP,添加到训练集D中;步骤3、利用新增样本修正分类器参数,直到新增训练集T中的全部实例加入训练集D中。本发明的有益效果是:利用强化学习中经典的Q学习来合理选择样本增量序列,削弱噪声数据的负面影响。

技术领域

本发明涉及大数据的机器学习领域,特别是一种基于智能分析的海量数据样本增量分析方法。

背景技术

随着互联网的普及程度越来越高,网民的人数呈现爆炸性的增长,网络数据呈现出它的复杂性和多样性。机器学习的主要目的是通过智能分析方式,充分利用经验数据提高自身解决某类问题的能力。而高质量的数据是机器学习能够有效学习的基础和关键。

传统的分类学习算法要求所有的训练数据预先给定,并通过最小化定义在所有训练数据上的分类误差得到分类器。这种学习方法在小规模数据上取得了巨大成功,但应用到大数据学习问题时,则会表现出计算复杂度高、响应慢,无法用于实时性要求高的应用领域等缺陷。

增量学习是一种在线学习假设训练数据持续到来,通过小断地利用新增训练样本的信息更新当前的模型,大大降低了学习算法的空问复杂度和时问复杂度,从而可以有效地解决大数据学习中的问题。近年来,一些学者将深度学习与增量学习结合起来,以应对现阶段一些深层次学习所面临的挑战。但深度学习的性能主要依赖于监督样本的质量,一旦错误标记的样本被过早地用于分类器的训练,也将会导致所生成的分类器的性能下降。因此,如何合理地选择样本增量序列,避免过早地将噪声数据添加到分类器的训练数据集中,以削弱噪声数据的负面影响显得尤为重要。

大数据时代数据信息呈现持续性、爆炸性的增长,为机器学习算法带来大量的监督样本,然而这些信息通常不是一次性获得的,这为传统的分类模型提出了挑战。

发明内容

针对现有技术的缺陷,本发明提出使用增量学习即提出一种基于学习算法的增量分类模型,该模型利用强化学习中经典的Q学习来合理选择样本增量序列,削弱噪声数据的负面影响。是通过如下技术方案实现的。

专利提出了一种智能分析的海量数据样本增量分析方法,来解决以上增量学习所而临的问题。

本专利将Q学习和增量学习相结合,以强化学习中的Q值函数作为度量标准,计算添加每个样本后能够得到的分类器的精度,并选择能够使得当前分类器精度达到最高的样本依添加到训练集中,从而得到最佳的训练样本序列,以获得精度最高的分类器。具体过程如下:

首先,利用原始训练数据集D学习出当前分类器C;

然后用当前分类器对未标注类别标签的新增训练集T进行分类,针对每一个未标记的新增训练样例,利用Q一学习算法计算其Q值,从T中选择有利于提高当前分类器精度的新增训练实例,并赋予其标签CP,添加到训练集 D中;

然后利用新增样本修正分类器参数,直到新增训练集T中的全部实例加入训练集D中。

其中,衡量分类器精度的标准是分类器在测试集S上的分类精度。

本发明的有益效果是:针对具有大量未标记样本的分类问题,该算法运用增量学习的思想,基于已有少量带标签训练样本训练初始分类器,然后通过强化学习算法来合理地选择新增样本序列进行自主标注,并对分类器进行更新,合理选择样本增量序列,削弱噪声数据的负面影响。

附图说明

图1是本发明具体实施例的构建增量分类模型的算法框图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司;深圳供电局有限公司,未经南方电网科学研究院有限责任公司;深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010848785.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top