[发明专利]用户数据的特征选择方法、装置、计算机设备和存储介质在审
| 申请号: | 201711172183.5 | 申请日: | 2017-11-22 |
| 公开(公告)号: | CN107977413A | 公开(公告)日: | 2018-05-01 |
| 发明(设计)人: | 徐定坚;赖晓彬;刘奕慧 | 申请(专利权)人: | 深圳市牛鼎丰科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
| 代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 谢曲曲 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用户 数据 特征 选择 方法 装置 计算机 设备 存储 介质 | ||
技术领域
本申请涉及计算机技术领域,特别是涉及一种用户数据的特征选择方法、装置、计算机设备和存储介质。
背景技术
随着互联网以及大数据的快速发展,数据挖掘在挽留客户、客户营销和发现高价值客户中起着越来越重要的作用,可以从大量数据中挖掘出有价值的信息。特征选择是数据挖掘中的一个重要方向,特征选择是从所有的原始特征集合中选择部分最优特征,从数据中选择出的最优特征用于建立风控模型并进行分析,进而利用风险控制模型对用户进行信用评估。
传统的方式中,通常是采用过滤式(Filter)、封装式(Wrapper)以及嵌入式(Embedded)的特征选择方法。过滤式是通过对每一位的特征赋予权重,权重代表该维特征的重要性,然后依据权重对特征排序。封装式是通过将子集生成不同的组合,对组合进价,再与其他的组合进行比较,选择较优的子集。嵌入式是在模型既定的情况下学习出对提高模型准确性最好的属性,在学习器训练过程中自动挑选出对模型有意义的特征。但这几种方式没有充分展现特征之间的交互性,并且是采用单一分类器对特征进行分类,利用分类结果对特征选择结果进行分析,导致得到的最优特征具有随机性。如何提高选择最优特征子集的准确性成为目前需要解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高特征选择的准确性的用户数据的特征选择方法、装置、计算机设备和存储介质。
一种用户数据的特征选择方法,包括:
获取用户数据的特征信息,提取所述特征信息对应的特征变量;
对所述特征变量进行聚类,得到多个聚类结果;
对所述多个聚类结果内的特征变量分别进行组合,得到多个特征组合,所述特征组合包括多个组合特征变量;
获取目标变量,利用所述目标变量对多个组合特征变量进行相关性检验;
检验通过时,对所述组合特征变量添加交互标签;
利用添加交互标签后的组合特征变量解析对应的特征变量;
通过解析得到的特征变量生成用户最优特征变量。
在其中一个实施例中,利用所述目标变量对多个组合特征变量进行检验的步骤包括:
利用所述目标变量计算所述组合特征变量的P-value值;
将所述P-value值与第一阈值进行比较,当所述P-value值小于第一阈值时,记录所述组合特征变量通过检验。
在其中一个实施例中,利用添加交互标签后的组合特征变量解析对应的特征变量的步骤包括:
统计所述特征变量在所述添加交互标签后的组合特征变量中出现的频数;
计算所述频数对应的方差,利用所述方差与第二阈值进行比较;
当所述方差达到第二阈值时,将所述频数对应的特征变量记录为用户最优特征变量。
在其中一个实施例中,所述获取用户数据的特征信息的步骤之前,还包括:
获取数据库中用户的注册数据和用户的历史数据;
根据用户的注册数据获取第三方平台的用户行为数据;
对所述注册数据、历史数据和行为数据进行分析,得到分析后的用户数据;
获取预设关键字,利用预设关键字提取所述用户数据中的特征信息。
一种用户数据的特征选择装置,包括:
获取模块,用于获取用户数据的特征信息,提取所述特征信息对应的特征变量;
聚类模块,用于对所述特征变量进行聚类,得到多个聚类结果;
检验模块,用于对所述多个聚类结果内的特征变量分别进行组合,得到多个特征组合,所述特征组合包括多个组合特征变量;获取目标变量,利用所述目标变量对多个组合特征变量进行相关性检验,检验通过时,对所述组合特征变量添加交互标签;
解析模块,用于利用添加交互标签后的组合特征变量解析对应的特征变量;通过解析得到的特征变量生成用户最优特征变量。
在其中一个实施例中,所述特征检验模块还用于利用所述目标变量计算所述组合特征变量的P-value值;将所述P-value值与第一阈值进行比较,当所述P-value值小于第一阈值时,记录所述组合特征变量通过检验。
在其中一个实施例中,所述特征解析模块,还用于统计所述特征变量在所述添加交互标签后的组合特征变量中出现的频数;计算所述频数对应的方差,利用所述方差与第二阈值进行比较;当所述方差达到第二阈值时,将所述方差对应的特征变量记录为用户最优特征变量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市牛鼎丰科技有限公司,未经深圳市牛鼎丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711172183.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





