[发明专利]一种监测异常数据并择优过滤的平衡过滤器及方法在审
申请号: | 201510015396.1 | 申请日: | 2015-01-12 |
公开(公告)号: | CN104599173A | 公开(公告)日: | 2015-05-06 |
发明(设计)人: | 杜登斌;曾祥洪 | 申请(专利权)人: | 北京中润普达信息技术有限公司 |
主分类号: | G06Q40/00 | 分类号: | G06Q40/00 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100029 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监测 异常 数据 择优 过滤 平衡 过滤器 方法 | ||
技术领域
本发明涉及大数据异常监测等技术领域,特别涉及一种监测异常数据并择优过滤的平衡过滤器及方法。
背景技术
大部分时候分析师只区分数据的好坏或优劣(数据不同纬度的全面型或数据的缺失),但是对于数据的精细程度并没有做区分。而现实中,有很多地方其实是需要区分数据的精细程度的,比如,防止交易欺诈中的异常数据,淘宝店的刷信用交易数据,还有比如股市,期货或者外汇行情数据组成的相似形态等等,这些数据看起来都差不多,但是其中的一些细节其实又有所不同,如何能有效的区分出这些有着相同维度数据的精细程度?这个技术问题存在已久。现实当中,比如有很多理财产品,有些是高收益高风险的产品,有些是低收益低风险的产品,大部分人通常会避免高风险的产品,同时觉得如果只把钱放在银行似乎也不合算,所以大家可能希望要一种折中的产品,既不要高风险高收益也不要低风险低收益。
条件筛选的技术问题还是在于把变量离散化,分割为一段段区间的过程。对于连续的数值型变量,该离散化过程的结果为多个区间。比如学生的各科成绩,或者面试人员的学历等变量,分箱的结果可能被分为几个区间,比如数学被分为5个区间。分别是0-60分,60-70分,70-80分,80-90分,90-100分。每个区间称为一个箱子(bin),而一个变量对应的一组bin称为该变量的分箱(binning),用于预测的所有变量的binning称为一个分箱组。统计学上,也叫做把变量转换为“哑变量”。
目前,数据分析师在变量分箱过程中,存在两个主要问题:一是要么是手动分箱,要么是全自动分箱(FICO在其产品Model Builder中提供全自动分箱),手动分箱费时费力,而全自动分箱的缺点是分析师不能自由调整分箱。本发明方法提供一种半自动分箱过程,既不需要分析师费时费力计算后再手动分箱,同时,也避免了全自动分箱中的黑箱炒作,该方法同时提供分析师自由添加删除分箱的可修改模式,大大节省了分析师的筛选变量工作的同时也方便分析师进行修改完善。
现有技术的另外一个问题是变量之间的相关性较弱,比如上面提到到数学,语文,历史等各学科之间本身相关性较弱,再比如招聘所列的学历,工作经验等变量之间的相关性也较弱。相关性弱意味着进入分类的数据存在较多的相似数据,也就是筛选的不够精确,本发明方法所选的变量相关性较强。由于特殊筛选的缘故,本发明特意选了负相关性较强的变量,这样做的好处是能够比较精确的区分那些似是而非的数据,不仅精确挑选所需数据同时还能保证数据的一致性。
发明内容
针对现有技术的不足,本发明提出一种监测异常数据并择优过滤的平衡过滤器及方法,本发明方法及装置不仅能区分数据的精细程度,更进一步的所述方法和所述装置还能过滤其中的某些异常数据,尤其能同时过滤粗糙和精细的数据,这在某些领域有着特殊的技术效果,本发明方法要解决的技术问题就是要在同一个时候过滤掉类似高风险高收益和低风险低收益的数据,始终只保留中间数据,保留中间数据的好处在于获得持续稳定的结果,本发明方法以行情数据为基础来对该方法进行阐述。
本发明提出一种监测异常数据并择优过滤的平衡过滤器,包括:
获取0/1组合模块,用于获取历史数据,并将所述历史数据转换成多个0/1组合,每个所述0/1组合包括N个0/1的排列组合,并获取与0/1相关的数据,所述数据作为原始数据;
获取评估数据模块,用于根据所述原始数据,计算每个所述0/1组合的所述评估数据,其中所述评估数据包括条件概率、预期变动率、异常距离、风险波动率、概率波幅;根据所述评估数据,运行平衡过滤模块,并计算阈值,通过所述阈值对数据进行平衡过滤;
所述平衡过滤模块,用于通过所述评估数据计算所述阈值,并将每个所述0/1组合的所述评估数据进行排序,将所述评估数据中数值未符合所述阈值的数据删除,以完成所述0/1组合中数据的平衡过滤。
所述的监测异常数据并择优过滤的平衡过滤器,计算所条件概率的公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中润普达信息技术有限公司;,未经北京中润普达信息技术有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510015396.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人工智能会计记账系统与方法
- 下一篇:一种基于WEB的报税查询处理的方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置