[发明专利]一种数据流处理方法、装置、计算设备及存储介质在审

申请号：	202010768030.2	申请日：	2020-08-03
公开（公告）号：	CN111881995A	公开（公告）日：	2020-11-03
发明（设计）人：	赵曦滨;万海;张豪;黄潇	申请（专利权）人：	清华大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08;G06F17/11
代理公司：	北京科领智诚知识产权代理事务所(普通合伙) 11782	代理人：	陈士骞
地址：	100089***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据流处理方法装置计算设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书公开一种数据流处理方法、装置、计算设备及存储介质，其中所述数据流处理方法包括：接收待处理数据；将待处理数据输入异常检测模型，得到预测标签，所述异常检测模型通过引入在线优化的代价向量训练得到；根据预测标签对待处理数据进行分类。所述异常检测模型的参数根据并行处理相同数据的另两个模型的参数进行调整，根据代价向量取值不同的模型对数据处理的效果来优化该模型的参数，实现根据数据处理的效果对参数取值进行反馈调整，从而减少了现有技术中单纯依靠先验知识取值的不确定性，可以实时在线优化代价向量，更合理地应对数据的不平衡分布。

技术领域

本发明涉及机器学习领域，具体而言，涉及一种数据流处理方法、装置、计算设备及存储介质。

背景技术

众所周知，机器学习是数据科学，模型通过训练数据以对其背后潜藏的数据分布进行拟合，从而对新产生的未知数据做出正确的判断，其中，数据的不平衡分布，会对大多数算法的分类效果产生不利影响。数据的不平衡分布是指在分类问题中，不同类别所拥有的样本数量差异悬殊，由于某些类别的样本个数过少，常常导致模型在训练过程中无法对该类别的数据分布进行充分拟合。而在很多场景下，所需要关注的恰恰是少数类别，例如在异常检测任务中，异常数据往往比正常数据要重要得多，如果模型误判了一个正常数据，那么只需要进行进一步检测确认即可，但漏报一个异常样本却可能带来无法挽回的巨大损失。

代价敏感机制是一种算法层方法，主要思想是为模型在不同类别上的预测错误赋予不同的错误权重，在算法进行更新时，不同的类别具有不同的更新权重。例如，在异常检测的任务中，当模型漏报一个异常样本时，代价敏感机制会以一个较大的权重来更新模型，以此使得决策边界距离异常数据足够远，提高模型对异常数据的敏感度。然而，在现有技术中，代价向量的设置只能依靠行业先验知识，为代价向量设置合适的取值是一个十分困难的问题。

综上，研究一种能够在线优化代价向量的数据处理方法，以提高机器学习中模型学习数据分布的能力，成为亟待解决的问题。

发明内容

本说明书提供一种数据流处理方法、装置、计算设备及存储介质，用以克服现有技术中存在的至少一个技术问题。

根据本说明书实施例的第一方面，提供一种数据流处理方法，包括：接收待处理数据；将待处理数据输入异常检测模型，得到预测标签，所述异常检测模型通过引入在线优化的代价向量训练得到；根据预测标签对待处理数据进行分类。

优选的，所述异常检测模型的训练步骤，包括：

根据预先获得的参数化方程分别初始化三个异常检测模型代价向量，将三个异常检测模型的分数置零，所述三个异常检测模型仅代价向量的特征参数取值不同，且并行处理相同的数据流，其中第二异常检测模型的特征参数的取值为第一异常检测模型的特征参数减去范围参数，第三异常检测模型的特征参数的取值为第一异常检测模型的特征参数的加上范围参数；

接收待测样本，将待测样本输入所述第一异常检测模型、所述第二异常检测模型以及第三异常检测模型，分别得到第一预测标签、第二预测标签以及第三预测标签；

接收待测样本对应的真实标签，根据真实标签与所述第一预测标签、第二预测标签以及第三预测标签是否一致，对所述第一异常检测模型、所述第二异常检测模型、所述第三异常检测模型进行更新；

在更新参数模型后，对所述第一异常检测模型、所述第二异常检测模型以及所述第三异常检测模型在样本数据上的表现进行评分，得到第一分数、第二分数、第三分数；

在接收到预设数目的待测样本之后，根据第二异常检测模型的代价向量以及第二分数、第三异常检测模型的代价向量以及第三分数和预设的特征参数迭代公式，更新第一异常检测模型的代价向量的特征参数，以及更新所述第一异常检测模型、所述第二异常检测模型以及第三异常检测模型的代价向量；将三个异常检测模型分数置零，继续接收待测样本，并不断更新所述第一异常检测模型的代价向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010768030.2/2.html，转载请声明来源钻瓜专利网。

上一篇：基于忆阻器实现脉冲神经网络竞争学习机制的方法及系统
下一篇：一种预应力预制混凝土管桩浇筑成型工艺

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种数据流处理方法、装置、计算设备及存储介质在审

专利文献下载