[发明专利]一种统计方法及装置在审
| 申请号: | 201410571222.9 | 申请日: | 2014-10-23 |
| 公开(公告)号: | CN104392096A | 公开(公告)日: | 2015-03-04 |
| 发明(设计)人: | 徐礼锋;林启东;谢元智;袁静 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06F19/00 | 分类号: | G06F19/00 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 冯艳莲 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 统计 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种统计方法及装置。
背景技术
机器学习是指机器通过学习数据得到知识的过程,机器学习以数据变量为信息来源,该数据变量可以采用不同的方式提供。数据变量可以分为具体变量和抽象变量,所谓具体变量是指具有具象特征的变量,例如针对用户特征描述中的年龄、性别、国籍等是具有具象特征的具体变量;所谓抽象变量是指具有抽象特征的变量,不能直接表达具体含义,例如地理经纬度。
对于具体变量,可以直接作为机器学习中模型训练的输入数据。而对于抽象变量,则需要经过转换、特征抽取后才能使用。例如,需要将地理经纬度转换为城市、商圈等现实中有意义的位置信息。
现实世界中大部分可以直接获得的信息都是具有抽象特征的抽象信息,如果期望模型训练得到较好的效果,需要针对学习的目标对大量原始信息进行特征抽取,该特征抽取的过程可以概括为特征工程。实际经验表明,特征工程占了整个建模工作量的70%以上,为了提高特征工程的效率,特征抽取的有效性和复用性就显得较为重要。
在现有的机器学习实践中,提高特征工程效率的做法是依赖于一个特征专家团队,依赖于专家的经验和反复实验,根据最终模型评估结果识别有价值的特征。现有的特征抽取过去依赖专家的经验,工业生成效率较为低下,并且对于新业务,专家的经验难以得到继承,仍然需要进行大量的反复实验。
可见,如何提高特征工程的效率是一个需要解决的问题。
发明内容
本发明实施例提供一种统计方法及装置,用以统计特征变量在建模过程中所起的作用,为后续建模过程中选取特征变量提供依据,达到提高特征变量选取效率的目的。
本发明实施例提供的具体技术方案如下:
第一方面,提供了一种统计方法,包括:
基于一个以上测试样本数据集合对模型进行多次评估,获得每次评估对应的评估结果,确定所述评估结果达到预设的学习目标的各有效评估;
根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果,分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度,根据获得的每个所述有效评估中所述各特征变量各自的特征引用度,计算得到所述各特征变量各自的总引用度,所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。
结合第一方面,在第一种可能的实现方式中,计算得到所述各特征变量各自的总引用度后,所述方法还包括:
获取预存的特征变量与总引用度的对应关系,根据计算获得的所述各特征变量各自的总引用度,以及所述对应关系中的所述各特征变量各自的总引用度,计算得到新的总引用度,将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述获取预存的特征变量与总引用度的对应关系之前,所述方法还包括:
基于一个以上测试样本数据集合对保存的历史模型进行多次评估,获得每次评估对应的评估结果;
确定所述评估结果达到预设的学习目标的各有效评估;
根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果,分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度;
根据获得的每个所述有效评估中所述各特征变量各自的特征引用度,计算得到所述各特征变量各自的总引用度;
根据计算得到所述各特征变量各自的总引用度,建立所述各特征变量与各自的总引用度的对应关系。
结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,根据计算获得的所述各特征变量各自的总引用度,以及所述对应关系中的所述各特征变量各自的总引用度,计算得到新的总引用度,包括:
分别计算所述计算获得的所述各特征变量各自的总引用度,与对应的所述对应关系中的所述各特征变量各自的总引用度的和,得到所述各特征变量各自的和值;
将所述各特征变量各自对应的所述和值作为所述各特征变量各自的所述新的总引用度。
结合第一方面至第三种可能的实现方式中的任意一种,在第四种可能的实现方式中,计算获得所述特征变量的特征引用度,包括:
按照公式计算获得所述特征变量的特征引用度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410571222.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





