[发明专利]一种样本属性的分析方法、装置和设备有效
申请号: | 201310049899.1 | 申请日: | 2013-02-07 |
公开(公告)号: | CN103150349B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 曹明;金中良 | 申请(专利权)人: | 华为软件技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司11138 | 代理人: | 鞠永善 |
地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 属性 分析 方法 装置 设备 | ||
技术领域
本发明涉及数据分析领域,特别涉及一种样本属性的分析方法、装置和设备。
背景技术
随着存储技术的迅猛发展,数据量越来越大,大量的数据保存于数据库中。通过对数据的各种样本属性进行分析,从而可以获知数据样本的分布情况,加深对当前业务状况的了解,进而有助于决策。其中,样本属性分为数值属性和非数值属性,例如,年龄为数值属性,性别为非数值属性。
目前,对数据的样本属性的分析方法主要是数据分析人员通过使用如Excel(微软公司的办公软件Microsoft office的组件之一)、SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案)图表等数据分析工具对数据的样本属性进行分析,并结合最小值、最大值、均值、标准方差等统计指标综合分析,在了解每个指标的分布之后,主观判断属性的相对显著性。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
目前采用数据分析工具对样本属性进行分析的方法,首先由于需要对业务有较高的理解且需要熟悉分析工具,才能熟练使用图表等数据分析工具完成对数据的深度研究,因此对分析人员要求高且主观性较强;
其次,当业务属性较多时,传统的数据分析工具处理效率低,而数据分析人员也需要对每个属性进行逐一研究,需要消耗大量的资源;
最后,现有的方法主要是主观判断和经验,缺乏一个定量的判断依据,且对于数值属性和非数值属性无法统一去评价。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种样本属性的分析方法、设备和系统。所述技术方案如下:
第一方面,提供了一种样本属性的分析方法,所述方法包括:
根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2......Rn];所述n为属性值个数;
将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri-1累加,得到所述每个属性值的累计占比Wi;
根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。
在第一方面的第一种可能的实现方式中,所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
在第一方面的第二种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:
根据预设的规则去除所述样本属性的属性值中的异常属性值。
在第一方面的第三种可能的实现方式中,所述根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,包括:
根据公式计算得到所述样本属性的强势值I;
其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
在第一方面的第四种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
在第一方面的第五种可能的实现方式中,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2......Rn],包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为软件技术有限公司,未经华为软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310049899.1/2.html,转载请声明来源钻瓜专利网。