[发明专利]一种特征处理方法、装置及存储介质在审
| 申请号: | 201911029966.7 | 申请日: | 2019-10-28 |
| 公开(公告)号: | CN110837894A | 公开(公告)日: | 2020-02-25 |
| 发明(设计)人: | 郑立凡;吕培立;董井然 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 特征 处理 方法 装置 存储 介质 | ||
1.一种特征处理方法,其特征在于,包括:
获取多个对象的对象信息,每个对象的对象信息包括所述对象的标签以及所述对象与多个单特征分别对应的多项特征信息;
对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合;其中,每个候选分段集合中包括至少两个候选分段;
基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合;
对各目标分段集合中的目标分段进行组合;
基于对各目标分段的组合结果,构建目标组合特征集合。
2.根据权利要求1所述的一种特征处理方法,其特征在于,所述对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合包括:
确定每个单特征的特征类型;
根据所述单特征的特征类型,对所述单特征对应的特征信息进行分段处理,得到多个分段;
基于多个分段构建与所述单特征对应的所述候选分段集合。
3.根据权利要求2所述的一种特征处理方法,其特征在于,所述单特征的特征类型包括数值类型和类别类型;
相应地,所述根据所述单特征的特征类型,对所述单特征对应的特征信息进行分段处理,得到多个分段包括:
当所述单特征的特征类型为数值类型时,基于所述单特征对应的特征信息的数值范围对所述特征信息进行分段,得到多个分段;
当所述单特征的特征类型为类别类型时,基于所述单特征对应的特征信息中包含的特征类别对所述特征信息进行分段,得到多个分段。
4.根据权利要求1所述的一种特征处理方法,其特征在于,所述基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合包括:
基于各对象的标签,确定每个单特征对应的目标分段集合中各候选分段的贡献值;
基于各候选分段的贡献值,选取符合预设条件的候选分段为目标分段;
将所述候选分段中除所述目标分段以外的剩余候选分段合并到所述目标分段中;
基于各目标分段,生成与所述单特征对应的目标分段集合。
5.根据权利要求4所述的一种特征处理方法,其特征在于,所述基于各对象的标签,确定每个单特征对应的目标分段集合中各候选分段的贡献值包括:
基于各对象的标签,确定响应对象的总数和未响应对象的总数;
对于每个单特征对应的候选分段集合中的各候选分段,确定处于每个候选分段中的目标对象,所述目标对象包括响应对象和未响应对象;
基于各目标对象的标签,分别确定每个候选分段中的所述响应对象的数量和所述未响应对象的数量;
基于每个候选分段中的所述响应对象的数量、所述未响应对象的数量、所述响应对象的总数以及所述未响应对象的总数,确定各候选分段的编码值;
基于各候选分段的编码值,计算各候选分段的信息值;
确定各分段的信息值为各候选分段的所述贡献值。
6.根据权利要求4所述的一种特征处理方法,其特征在于,所述基于各候选分段的贡献值,选取符合预设条件的候选分段为目标分段包括:
按照各候选分段的贡献值由大到小的顺序对各候选分段进行排序,选取排序靠前的预设数量的候选分段为所述目标分段;
或,
选取所述贡献值大于预设值的候选分段为所述目标分段。
7.根据权利要求1所述的一种特征处理方法,其特征在于,所述对各目标分段集合中的目标分段进行组合包括:
基于预设的目标分段组合方法,对各目标分段集合中的目标分段的组合方式进行穷举;其中,所述目标分段组合方法为从每个目标分段集合中分别取一个目标分段进行组合;
基于对目标分段组合的穷举结果,得到多项组合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911029966.7/1.html,转载请声明来源钻瓜专利网。





