[发明专利]一种数据流处理方法、装置、计算设备及存储介质在审
| 申请号: | 202010768030.2 | 申请日: | 2020-08-03 |
| 公开(公告)号: | CN111881995A | 公开(公告)日: | 2020-11-03 |
| 发明(设计)人: | 赵曦滨;万海;张豪;黄潇 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06F17/11 |
| 代理公司: | 北京科领智诚知识产权代理事务所(普通合伙) 11782 | 代理人: | 陈士骞 |
| 地址: | 100089*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据流 处理 方法 装置 计算 设备 存储 介质 | ||
本说明书公开一种数据流处理方法、装置、计算设备及存储介质,其中所述数据流处理方法包括:接收待处理数据;将待处理数据输入异常检测模型,得到预测标签,所述异常检测模型通过引入在线优化的代价向量训练得到;根据预测标签对待处理数据进行分类。所述异常检测模型的参数根据并行处理相同数据的另两个模型的参数进行调整,根据代价向量取值不同的模型对数据处理的效果来优化该模型的参数,实现根据数据处理的效果对参数取值进行反馈调整,从而减少了现有技术中单纯依靠先验知识取值的不确定性,可以实时在线优化代价向量,更合理地应对数据的不平衡分布。
技术领域
本发明涉及机器学习领域,具体而言,涉及一种数据流处理方法、装置、计算设备及存储介质。
背景技术
众所周知,机器学习是数据科学,模型通过训练数据以对其背后潜藏的数据分布进行拟合,从而对新产生的未知数据做出正确的判断,其中,数据的不平衡分布,会对大多数算法的分类效果产生不利影响。数据的不平衡分布是指在分类问题中,不同类别所拥有的样本数量差异悬殊,由于某些类别的样本个数过少,常常导致模型在训练过程中无法对该类别的数据分布进行充分拟合。而在很多场景下,所需要关注的恰恰是少数类别,例如在异常检测任务中,异常数据往往比正常数据要重要得多,如果模型误判了一个正常数据,那么只需要进行进一步检测确认即可,但漏报一个异常样本却可能带来无法挽回的巨大损失。
代价敏感机制是一种算法层方法,主要思想是为模型在不同类别上的预测错误赋予不同的错误权重,在算法进行更新时,不同的类别具有不同的更新权重。例如,在异常检测的任务中,当模型漏报一个异常样本时,代价敏感机制会以一个较大的权重来更新模型,以此使得决策边界距离异常数据足够远,提高模型对异常数据的敏感度。然而,在现有技术中,代价向量的设置只能依靠行业先验知识,为代价向量设置合适的取值是一个十分困难的问题。
综上,研究一种能够在线优化代价向量的数据处理方法,以提高机器学习中模型学习数据分布的能力,成为亟待解决的问题。
发明内容
本说明书提供一种数据流处理方法、装置、计算设备及存储介质,用以克服现有技术中存在的至少一个技术问题。
根据本说明书实施例的第一方面,提供一种数据流处理方法,包括:接收待处理数据;将待处理数据输入异常检测模型,得到预测标签,所述异常检测模型通过引入在线优化的代价向量训练得到;根据预测标签对待处理数据进行分类。
优选的,所述异常检测模型的训练步骤,包括:
根据预先获得的参数化方程分别初始化三个异常检测模型代价向量,将三个异常检测模型的分数置零,所述三个异常检测模型仅代价向量的特征参数取值不同,且并行处理相同的数据流,其中第二异常检测模型的特征参数的取值为第一异常检测模型的特征参数减去范围参数,第三异常检测模型的特征参数的取值为第一异常检测模型的特征参数的加上范围参数;
接收待测样本,将待测样本输入所述第一异常检测模型、所述第二异常检测模型以及第三异常检测模型,分别得到第一预测标签、第二预测标签以及第三预测标签;
接收待测样本对应的真实标签,根据真实标签与所述第一预测标签、第二预测标签以及第三预测标签是否一致,对所述第一异常检测模型、所述第二异常检测模型、所述第三异常检测模型进行更新;
在更新参数模型后,对所述第一异常检测模型、所述第二异常检测模型以及所述第三异常检测模型在样本数据上的表现进行评分,得到第一分数、第二分数、第三分数;
在接收到预设数目的待测样本之后,根据第二异常检测模型的代价向量以及第二分数、第三异常检测模型的代价向量以及第三分数和预设的特征参数迭代公式,更新第一异常检测模型的代价向量的特征参数,以及更新所述第一异常检测模型、所述第二异常检测模型以及第三异常检测模型的代价向量;将三个异常检测模型分数置零,继续接收待测样本,并不断更新所述第一异常检测模型的代价向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010768030.2/2.html,转载请声明来源钻瓜专利网。





