[发明专利]特征重要性获取方法及装置有效
申请号: | 201710195687.2 | 申请日: | 2017-03-29 |
公开(公告)号: | CN108665293B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 曾嘉;袁明轩 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q10/04 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 重要性 获取 方法 装置 | ||
本发明公开了特征重要性获取方法及装置,通过利用预设模型对样本进行训练,可以输出训练后的训练模型及样本的特征重要性矩阵。其中,样本的特征重要性矩阵中的每一列表示样本的一个特征重要性,通过样本的特征重要性矩阵可以获取任一一个或者多个样本的特征重要性。另外,本发明实施例还可以利用训练模型预测待测样本的特征重要性,通过训练模型输出的待测样本的特征重要性矩阵,可以获取一个或者多个待测样本的特征重要性。例如通过预测待测用户的多维度行为数据,得到待测用户的多维度特征重要性矩阵,可以获取到每个待测用户不同维度的数据对其重要性程度,进而可以指导业务人员针对某个或者多个不同的用户分别开展业务,提高工作效率。
技术领域
本发明涉及数据处理领域,尤其涉及特征重要性获取方法及装置。
背景技术
随着科技的不断发展,社会已经进入大数据时代,很多商家获取用户的行为数据,并对用户的行为数据进行分析,并根据分析结果调整销售策略已成为常态。例如,用户行为数据通常以一个M×N的特征矩阵来表示,其中该矩阵中的每一行可以表示一个用户,每一列可以表示不同用户的行为特征,例如该行为特征可以是用户的消费额度、常驻地点和社交关系等。
为了预测用户的未来行为以及获取导致用户未来行为的原因,现有技术中,通过建立对用户未来行为的预测模型,来输出导致该未来行为的重要的行为特征,用以辅助分析导致该行为的根因。例如,在实际业务场景中,利用分类/回归预测模型预测用户在未来是否消费额度下降,并输出每个特征对预测结果贡献的重要性权重,如图1所示,比如常驻地点特征重要性权重是0.8,而社交关系特征的重要性权重是0.2,通过对特征重要性权重从大到小排序,可以辅助分析最有可能是“常驻地点”的服务出现问题,才导致用户消费额度下降。然而,现有技术当中,在特征重要性排序时,输出的通常是一个基于整体的特征重要性向量。该特征重要性向量一般只能获取所有用户整体上的特征重要性,而无法直接获取所有用户中对于某个或部分用户的特征重要性排序。
发明内容
为了解决现有技术当中的相关问题,本发明实施例提供了一种特征重要性获取方法及装置。
第一方面,本发明实施例提供了一种特征重要性获取方法,包括:
获取样本集合,所述样本集合包括多个样本,所述样本包括多个维度的特征;
通过所述样本集合对预设模型进行训练,得到训练模型,所述训练模型将所述样本集合划分为多个节点,每个所述节点包括由一个或者多个样本组成的样本群;
计算各个所述节点中预设类别的样本的激活强度和信息增益,所述激活强度表示所述节点中预设类别的样本在样本群中所占的权重,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,所述信息增益表示将所述节点划分前后的信息差,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关;
通过各个所述节点中预设类别的样本的激活强度和信息增益,获取每个所述预设类别的样本特征重要性,所述特征重要性表示所述预设类别的样本在各个维度分别对应的权重。在本发明实施例提供的一种可能的设计方式中,
在本发明实施例提供的一种可能的设计方式中,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,包括:
所述激活强度为预设类别的样本在样本群中所占比例的非负增函数。
在本发明实施例提供的一种可能的设计方式中,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关,包括:
所述预设类别的样本在样本群中所占的比例越高,所述预设类别的样本的信息增益越大。
在本发明实施例提供的一种可能的设计方式中,所述获取每个所述预设类别的样本特征重要性,包括:
获取每个所述预设类别的样本在所述训练模型中对应的节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710195687.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:拼车优惠金额确定方法及装置
- 下一篇:虚拟资源对象处理方法、装置及计算机系统