[发明专利]一种样本属性的分析方法、装置和设备有效
申请号: | 201310049899.1 | 申请日: | 2013-02-07 |
公开(公告)号: | CN103150349B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 曹明;金中良 | 申请(专利权)人: | 华为软件技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司11138 | 代理人: | 鞠永善 |
地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 属性 分析 方法 装置 设备 | ||
1.一种样本属性的分析方法,其特征在于,所述方法包括:
根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2...Rn];所述n为属性值个数;
将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri-1累加,得到所述每个属性值的累计占比Wi;
根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。
2.根据权利要求1所述的方法,其特征在于,当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
3.根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:
根据预设的规则去除所述样本属性的属性值中的异常属性值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,包括:
根据公式计算得到所述样本属性的强势值I;
其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
5.根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
6.根据权利要求5所述的方法,其特征在于,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2......Rn],包括:
将所述任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2......Cn/2];其中,所述n为属性值个数。
7.一种样本属性的分析装置,其特征在于,所述装置包括:
样本占比模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
占比序列模块,用于根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2...Rn];所述n为属性值个数;
累计占比模块,用于将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri-1累加,得到所述每个属性值的累计占比Wi;
强势值模块,用于根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。
8.根据权利要求7所述的装置,其特征在于,所述样本占比模块,包括:
数值样本占比单元,用于当所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为软件技术有限公司,未经华为软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310049899.1/1.html,转载请声明来源钻瓜专利网。