[发明专利]识别持卡人属性的方法、装置、计算机可读介质及系统在审
| 申请号: | 201710395600.6 | 申请日: | 2017-05-27 |
| 公开(公告)号: | CN107316204A | 公开(公告)日: | 2017-11-03 |
| 发明(设计)人: | 龙凯;赵相龙;张森;王晗 | 申请(专利权)人: | 银联智惠信息服务(上海)有限公司 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
| 代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 潘彦君,吴敏 |
| 地址: | 200125 上海市浦*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 识别 持卡人 属性 方法 装置 计算机 可读 介质 系统 | ||
技术领域
本发明涉及数据处理领域,尤其涉及一种识别持卡人属性的方法、装置、计算机可读存储介质及系统。
背景技术
随着电子商务的普及,经常需要基于消费数据识别持卡人的属性(例如,属性、年龄段等),并针对不同属性的人群提供不同的解决方案,从而满足不同属性的人群需求。
而目前直接通过持卡人的消费数据所属的行业识别其属性的方案,虽然简单易行,但是存在准确率低、覆盖率低的问题,尤其如果持卡人只在餐饮等并无属性倾向的行业消费,则完全无法根据消费数据判断持卡人的属性。
发明内容
本发明解决的技术问题是如何提升持卡人属性识别的准确率和覆盖率。
为解决上述技术问题,本发明实施例提供一种识别持卡人的属性的方法,所述方法包括:获取持卡人对应的消费数据;基于持卡人对应的消费数据,计算任一维度下的任一指标的任一特征统计值,直至遍历得到所有预设的维度下的所有预设的指标所对应的所有预设的特征统计值,生成第一消费数据特征值文件;基于第一消费数据特征值文件和机器学习模型,识别所述持卡人的真实属性。
可选地,所述机器学习模型的建立方法包括:获取已明确标记真实属性的持卡人的样本消费数据;基于已明确标记真实属性的持卡人的样本消费数据,计算任一维度下的任一指标的任一特征统计值,直至遍历得到所有预设的维度下的所有预设的指标所对应的所有预设的特征统计值,生成第二消费数据特征值文件;对第二消费数据特征值文件中的特征值进行过滤,生成第二消费数据有效特征值文件;基于第二消费数据有效特征值文件,利用机器学习算法,建立机器学习模型。
可选地,所述对第二消费数据特征值文件中的特征值进行过滤,包括:第一级过滤,去除无用和重复特征值;第二级过滤,去除无关联特征值。
可选地,所述第一级过滤包括:利用皮尔森相关系数,计算所述特征值与真实属性的相关系数,去除相关系数小于预设的相关系数第一门限的特征值;计算任两个特征值的相关系数,当任两个特征值的相关系数高于预设的相关系数第二门限时,去除参与计算的任一特征值。
可选地,所述第二级过滤包括:利用卡方检验方法,计算每一个特征值与真实属性的关联性,去除无关联的特征值;利用机器学习算法,评估多个特征值与真实属性的关联性,去除无关联的特征值。
可选地,所述机器学习算法,包括以下至少一种:回归算法、SVM算法、决策树算法、随机森林算法和Xgboost算法。
可选地,所述预设的维度包括以下至少一种:年份、月份、星期、小时、行业大类、交易渠道、省份和商户。
可选地,所述预设的指标包括以下至少一种:天数、次数、金额、MCC个数、单次平均消费价格、每天平均消费价格、每天平均消费次数、MCC平均消费次数、MCC平均消费金额、MCC平均消费天数、城市个数、城市平均消费次数、城市平均消费金额、城市平均消费天数、年数、月数、年平均消费天数、年平均消费次数、年平均消费金额、年平均消费月数、月平均消费金额、月平均消费天数、月平均消费次数、月平均消费天数、商户关键字。
可选地,所述预设的特征统计值包括以下至少一种:最大值、最小值、中值、计数值、求和值、平均值、标准差、排序值。
可选地,所述识别持卡人属性的方法还包括:按照所识别的所述持卡人的真实属性,将所述持卡人分组,其中第t组人群为标记为第t属性的人群,1≤t≤T,T为真实属性的总个数,T≥1,t为其中任意一个真实属性;针对每一组人群,基于预设的概率图模型,对所述持卡人对应的消费数据进行处理,识别得到所述持卡人的消费属性。
可选地,所述基于预设的概率图模型,对所获取的持卡人对应的消费数据进行处理,识别得到所述持卡人的消费属性包括:选取预设的有倾向属性的商户并标记倾向属性,迭代执行如下步骤,直至达到预设的停止迭代的条件:按照标记了倾向属性的商户的倾向属性,标记其所对应的持卡人的消费属性;按照标注了消费属性的持卡人的属性,标记其所对应的未标记倾向属性的商户的倾向属性。
可选地,所述预设的停止迭代的条件包含以下任意一个:达到最大迭代次数、所有持卡人的属性和所有商户的倾向属性均被标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银联智惠信息服务(上海)有限公司,未经银联智惠信息服务(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710395600.6/2.html,转载请声明来源钻瓜专利网。





