[发明专利]一种混合值属性审批数据的分类方法及系统在审
申请号: | 201910014482.9 | 申请日: | 2019-01-07 |
公开(公告)号: | CN109740680A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 贾晋;何玉林 | 申请(专利权)人: | 深圳中创华安科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06Q40/02 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 杜阳阳 |
地址: | 518000 广东省深圳市龙华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性数据 数据集 审批 分类 热编码 编码数据 神经网络 数值属性 不确定性 分类结果 实际输出 数据包括 损失函数 最小化 集合 融合 输出 转换 | ||
本发明公开一种混合值属性审批数据的分类方法及系统。包括:获取待分类的混合值属性的审批数据;所述审批数据包括离散值属性数据集和连续值属性数据集;采用独热编码方法对所述离散值属性数据集进行转换,得到独热编码数据集;基于神经网络对所述独热编码数据集进行深度编码,得到深度编码数据集;将所述深度编码数据集和所述连续值属性数据集合并,得到实数值属性数据集;采用连续值属性数据的分类方法对所述实数值属性数据集进行分类,得到所述审批数据的分类结果。本发明融合了实际输出与真实输出之间的误差和不确定性最小化损失函数的神经网络来对审批数据中的离散值属性进行深度编码,从而提高混合值属性审批数据的分类精度。
技术领域
本发明涉及数据分类领域,特别是涉及一种混合值属性审批数据的分类方法及系统。
背景技术
混合值属性是指数据的属性既有离散的又有连续的,离散值属性又被称为符号值属性,连续值属性亦可被称为实数值属性。实际应用中大量的分类问题是与混合值属性数据相关的。例如,信用卡审批过程,信用卡审批数据是一种典型的混合值属性数据,根据申请人提交的待审批数据材料,通过对审批数据的审核,对其作出信用卡是否获批的决定,要么信用卡获批,要么信用卡不获批。
对混合值属性数据分类常见的方法就是对连续值属性进行离散化(例如C4.5决策树使用的就是对连续值属性的二值离散化)或者是离散值属性进行连续化(例如独热编码及其变体)。独热编码(One-hotEncoding)是一种经典的用于处理混合值属性(Mixed-valueAttribute)数据集分类问题的编码方式,它将符号表示离散值属性转换成0-1实数值表示的连续值属性。例如,对于含有4个符号取值的离散值属性B={B1,B2,B3,B4}而言,当样本在属性B上的取值分别为B1、B2、B3和B4时,进行独热编码之后样本对应该属性的取值分别被表示为(1,0,0,0)、(0,1,0,0)、(0,0,1,0)和(0,0,0,1)。独热编码在一定程度上解决了离散值属性的连续化问题,但事实上,进行独热编码操作之后的属性取值在数值分布意义上讲仍是离散的,而且是一种二值离散的,并没有从根本上解决离散值属性的连续化,在一定程度上限制了分类算法在混合值属性审批数据上的表现,影响分类精度。
发明内容
本发明的目的是提供一种混合值属性审批数据的分类方法及系统,用以处理混合值属性审批数据的分类问题,本方法融合了实际输出与真实输出之间的误差和不确定性最小化损失函数的神经网络来对审批数据中的离散值属性进行深度编码,从而提高混合值属性审批数据的分类精度。
为实现上述目的,本发明提供了如下方案:
一种混合值属性审批数据的分类方法,包括:
获取待分类的混合值属性的审批数据;所述审批数据包括离散值属性数据集和连续值属性数据集;
采用独热编码方法对所述离散值属性数据集进行转换,得到独热编码数据集;
基于神经网络对所述独热编码数据集进行深度编码,得到深度编码数据集;
将所述深度编码数据集和所述连续值属性数据集合并,得到实数值属性数据集;
采用连续值属性数据的分类方法对所述实数值属性数据集进行分类,得到所述审批数据的分类结果。
可选的,所述待分类的混合值属性的审批数据为信用卡审批数据。
可选的,所述采用独热编码方法对所述离散值属性数据集进行转换,得到独热编码数据集,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳中创华安科技有限公司,未经深圳中创华安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910014482.9/2.html,转载请声明来源钻瓜专利网。