[发明专利]随机选取特征的方法、装置、电子设备及存储介质在审
| 申请号: | 201810892174.1 | 申请日: | 2018-08-07 |
| 公开(公告)号: | CN109255368A | 公开(公告)日: | 2019-01-22 |
| 发明(设计)人: | 叶俊锋;赖云辉;罗先贤;孙成;龙觉刚 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 深圳市立智方成知识产权代理事务所(普通合伙) 44468 | 代理人: | 王增鑫 |
| 地址: | 518000 广东省深圳市福田街*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标准化处理 度量值集合 集合 存储介质 电子设备 候选特征 随机选取 轮盘赌 算法 选中 特征信息 选择概率 预设算法 差异度 适应度 概率 申请 输出 应用 | ||
本申请实施例提供了一种随机选取特征的方法、装置、电子设备及存储介质。该方法包括:确定各个候选特征的度量值,得到第一度量值集合;对第一度量值集合进行标准化处理;通过预设算法扩大标准化处理后的第一度量值集合中各个度量值间的差异,得到第二度量值集合;将第二度量值集合中的度量值作为各个候选特征的适应度输入轮盘赌模型,将轮盘赌模型输出的特征作为选中特征。本申请实施例通过扩大各个特征的度量值之间的差异,扩大了各个特征对应的选择概率之间的差异,使得度量值高和度量值低的特征被选中的概率的差异度较大,提升了好特征被选中的概率,最终使得应用该选中特征的算法能够充分利用有效的特征信息,提高了算法精度。
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种随机选取特征的方法、装置、电子设备及存储介质。
背景技术
特征选择也称特征子集选择或属性选择,是指从已有的M个特征中选择N个特征,以使得系统的特定指标最优。此外,通过特征选择能够从原始特征中选择出一些最有效的特征,以降低数据集的维度,是提高学习算法性能的一个重要手段。
现有的特征选择方法为,计算出每个特征的度量值,如分类精度或AUC(AreaUnder the Curve)等评价分类算法性能的指标,再将各个特征的度量值作为权重代入轮盘赌算法中,得到随机输出的选中特征。现有的特征选择方法中,各个特征的权重区分不明显,使得度量值高和度量值低的特征被选中的概率相差无几,不能提升有效特征被选中的概率,导致算法不能充分利用有效特征的信息,降低了算法精度。
发明内容
本申请提供了一种随机选取特征的方法、装置、电子设备及计算机可读存储介质,可以解决因特征的权重区分不明显导致无法提升有效特征被选中的概率的问题。所述技术方案如下:
第一方面,本申请提供了一种随机选取特征的方法,该方法包括:
确定各个候选特征的度量值,得到第一度量值集合;
对第一度量值集合进行标准化处理;
通过预设算法扩大标准化处理后的第一度量值集合中各个度量值间的差异,得到第二度量值集合;
将第二度量值集合中的度量值作为各个候选特征的适应度输入轮盘赌模型,将轮盘赌模型输出的特征作为选中特征。
可选地,对第一度量值集合进行标准化处理,包括:对第一度量值集合进行min-max标准化处理。
可选地,通过预设算法扩大标准化处理后的第一度量值集合中各个度量值间的差异,得到第二度量值集合,包括:对标准化处理后的第一度量值集合中的各个度量值进行平方运算,以扩大各个度量值间的差异,得到第二度量值集合。
可选地,通过预设算法扩大标准化处理后的第一度量值集合中各个度量值间的差异,得到第二度量值集合,包括:
对标准化处理后的第一度量值集合中的度量值进行聚类,得到多个簇,每个簇中包括至少一个度量值;
根据预设策略分别对各个簇中的度量值进行扩大差异处理,得到第二度量值集合。
可选地,根据预设策略分别对各个簇中的度量值进行扩大差异处理,包括:
确定各个簇的边界点以及各个簇包含的度量值的数量;
根据各个簇的边界点以及各个簇包含的度量值的数量,确定各个簇的密度;
判断各个簇的密度是否大于预设密度,对密度大于预设密度的簇中的度量值进行扩大差异处理。
可选地,对密度大于预设密度的簇中的度量值进行扩大差异处理,包括:
扩大待处理簇的边界,其中,待处理簇为密度大于预设密度的簇;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810892174.1/2.html,转载请声明来源钻瓜专利网。





