[发明专利]特征选择方法、装置、设备及存储介质在审
| 申请号: | 202010453796.1 | 申请日: | 2020-05-26 |
| 公开(公告)号: | CN111738297A | 公开(公告)日: | 2020-10-02 |
| 发明(设计)人: | 刘小双 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
| 代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
| 地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征 选择 方法 装置 设备 存储 介质 | ||
1.一种特征选择方法,其特征在于,所述特征选择方法包括:
获取原始医疗数据,并对所述原始医疗数据进行特征化处理,得到与所述原始医疗数据对应的待选择特征组,其中,所述特征化处理为将所述原始医疗数据与待选择特征之间进行映射处理;
将所述待选择特征组进行多次拷贝,并对每次拷贝后的集合进行随机打乱,得到多组随机集合;
将所述待选择特征组与多组所述随机集合进行拼接,得到特征矩阵,并将所述特征矩阵进行分割成n组训练集,n为预设值,且为大于1的正整数;
选取所述n组训练集中的n-1组训练集基于模型训练算法构建树模型,得到n个树模型,并计算每个树模型对应的特征重要性集合;
根据所述特征重要性集合计算多个所述待选择特征的代表分值;
获取所述代表分值中最高值所对应的待选择特征,记录所述待选择特征的分值,并将获取到的待选择特征及其对应的随机特征从所述特征矩阵中移除;
判断选择出的特征个数是否大于或等于预设的特征个数;
若是,结束特征选择,将特征选择出来的被选择特征作为重要医疗特征输出;
若否,则将特征移除处理后得到的特征矩阵进行分割处理,继续进行特征选择。
2.根据权利要求1所述的特征选择方法,其特征在于,在所述将所述待选择特征组进行多次拷贝之后,还包括:
对拷贝后获得的拷贝特征打上特征标签,所述特征标签用于使待选择特征和所述随机特征相对应,其中,所述特征标签用于对所述特征矩阵进行分割处理。
3.根据权利要求2所述的特征选择方法,其特征在于,所述将所述特征矩阵进行分割成n组训练集包括:
根据所述特征标签,将所述特征矩阵中的每个特征的数据分别划分为至少一类样本;
对所述样本进行分层抽样,得到n组训练集,所述训练集用于通过模型训练算法构建树模型。
4.根据权利要求1-3任一项所述的特征选择方法,其特征在于,所述模型训练算法包括随机森林算法、Adboost、GBDT、Xgboost、以及LightGBM中的任意一种。
5.根据权利要求4所述的特征选择方法,其特征在于,当所述模型训练算法为随机森林算法时,所述选取所述n组训练集中的n-1组训练集基于模型训练算法构建树模型,得到n个树模型,并计算每个树模型对应的特征重要性集合包括:
计算随机森林中的树模型在袋外数据上的第一分类错误数;
在树模型的袋外数据中对特征的取值进行随机扰动,计算第二分类错误数;
根据所述第一分类错误数和第二分类错误数计算各特征的特征重要性。
6.根据权利要求1所述的特征选择方法,其特征在于,所述根据所述特征重要性集合计算多个所述待选择特征的代表分值包括:
根据所述特征重要性,计算各特征的Z-score值;
根据所述待选择特征的Z-score值和对应的随机特征的Z-score值计算待选择特征的代表分值。
7.根据权利要求6所述的特征选择方法,其特征在于,在所述结束特征选择,将特征选择出来的被选择特征作为重要医疗特征输出之后,还包括:
获取被选择特征及所述被选择特征对应的Z-score值;
根据所述被选择特征对应的Z-score值,计算所有被选择特征的第一重要性分值;
将所述被选择特征重新输入树模型中,计算所述被选择特征的特征重要性,将所述特征重要性作为第二重要性分值;
选择所述第一重要性分值和所述第二重要性分值中的一个作为参考分值,所述参考分值用于进行后续特征分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010453796.1/1.html,转载请声明来源钻瓜专利网。





