[发明专利]数据类型的确定方法和装置、存储介质及电子装置有效
申请号: | 201910964629.0 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110781433B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 余意 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06Q30/0241;G06F18/2431;G06N3/0475;G06N3/094 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 张秀英 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据类型 确定 方法 装置 存储 介质 电子 | ||
本发明公开了一种数据类型的确定方法和装置、存储介质及电子装置。其中,该方法包括:获取待处理数据的第一目标序列数据,将该第一目标序列数据输入预先训练好的对抗网络模型中,得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率,在目标概率大于或等于预设阈值的情况下,确定该待处理数据该属于该正常类型;否则,确定该待处理数据属于异常类型。本发明实施例通过预先训练好的对抗网络模型确定待处理数据为正常数据的概率,从而判断待处理数据是正常或异常数据,解决了现有技术中基于随机森林的方法由于每次选择特征时都是随机选择,导致在维度过高的情况下异常数据确定的效果会大幅度下降的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种数据类型的确定方法和装置、存储介质及电子装置。
背景技术
反作弊领域,现有大多使用传统的统计方法或者孤立森林来进行作弊行为检测或者异常检测。
相关技术中提出一种识别作弊流量的方法及装置,该方案从访问页面停留时长分布的角度分析,记录用户的访问页面流量的停留时长,然后对比该渠道的设定时长的访问额流量页面停留时长分布,将两者对比,如果不同,则表示该访问记录异常,属于作弊流量。
基于统计的方法只能针对一维的特征,根据维度的历史行为形成一个分布,通过分布来区分正常样本和异常样本。此方法缺点为特征只有一个维度过于单一,区分度不够,而且通常基于某个假设,即不服从某个分布则为异常样本,但是现实场景往往存在多个正常分布,无法预设所有的分布。
相关技术中还提出异常申请检测方法,该方案应用于信贷申请领域,将信贷申请数据提取特征,输入到孤立森林模型,直接输出申请数据是否属于异常申请,孤立森林模型是直接基于无标签数据进行训练。
基于随机森林的方法在维度过高的情况下效果会大幅度下降,每次选择特征的时候都是随机选择,会导致有些重要特征没有被使用,如直接输入时间序列特征,则效果很差,还需要增加一层时间序列特征提取流程。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据类型的确定方法和装置、存储介质及电子装置,以至少解决现有技术中基于随机森林的方法由于每次选择特征时都是随机选择,导致在维度过高的情况下异常数据确定的效果会大幅度下降的技术问题。
根据本发明实施例的一方面,还提供了一种数据类型的确定方法,包括:
获取待处理数据的第一目标序列数据,其中,该第一目标序列数据是从该待处理数据中按照时间序列提取的多个维度的序列数据;
将该第一目标序列数据输入预先训练好的对抗网络模型中,得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率,其中,该对抗网络模型用于将该第一目标序列数据进行重构,得到第二目标序列数据,并根据该第一目标序列数据与该第二目标序列数据之间的重构误差确定该目标概率,该目标概率与该重构误差负相关,该对抗网络模型是基于该正常类型的训练数据进行训练得到的模型,该对抗网络模型用于在输入数据为该正常类型的数据时输出的所述输入数据为正常类型的概率大于或等于预设阈值;
在该目标概率大于或等于预设阈值的情况下,确定该待处理数据该属于该正常类型;在该目标概率小于该预设阈值的情况下,确定该待处理数据不属于该正常类型。
根据本发明实施例的另一方面,还提供了一种数据类型的确定装置,包括:
第一获取模块,用于获取待处理数据的第一目标序列数据,其中,该第一目标序列数据是从该待处理数据中按照时间序列提取的多个维度的序列数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910964629.0/2.html,转载请声明来源钻瓜专利网。