[发明专利]分类器的生成方法及装置、文本的分类方法及装置有效
申请号: | 202010069042.6 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111259975B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 陈帅;陈弢 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 周达;刘飞 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 生成 方法 装置 文本 | ||
1.一种分类器的生成方法,包括:
获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;
从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;
基于所述多棵决策树生成所述分类器。
2.如权利要求1所述的方法,所述训练样本集的构建方法包括:
基于样本对应的标签,确定所述样本的样本类别;
根据各个样本的样本类别,进行均匀采样,获得所述训练样本集;其中,所述训练样本集中不同样本类别对应的样本的数量相同。
3.如权利要求1所述的方法,对决策树进行训练的方法包括:
遍历所述子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
4.如权利要求3所述的方法,所述方法还包括:
若训练获得的所述决策树的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述叶子节点对应的分类结果。
5.如权利要求1-4任一项所述的方法,所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。
6.一种文本的分类方法,包括:
接收用户提供的文本数据;
获取所述文本数据的多个维度的特征数据;
将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
基于所述预测类别确定所述文本数据的目标类别。
7.如权利要求6所述的方法,所述根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别包括:
若所述决策树输出的对应所述文本数据的叶子节点包括一个样本类别,则将该样本类别作为所述决策树输出的对应所述文本数据的预测类别;
若所述决策树输出的对应所述文本数据的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述决策树对所述文本数据的预测类别。
8.如权利要求6所述的方法,所述基于所述预测类别确定所述文本数据的目标类别,包括:
根据所述分类器中各个决策树输出的预测类别进行投票,将票数最多的预测类别作为所述文本数据的目标类别。
9.如权利要求6所述的方法,所述文本数据为投诉信息数据,所述投诉信息数据包括下述至少一种:投诉商户信息、投诉文本信息、投诉用户信息;
所述文本数据的多个维度的特征数据包括下述至少一种:投诉商户的交易频率、活跃度、历史投诉信息;
所述文本数据的目标类别为所述投诉信息数据对应的风险类别。
10.如权利要求6所述的方法,所述分类器的决策树采用下述方法进行训练:
遍历所述决策树的叶子节点对应的子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010069042.6/1.html,转载请声明来源钻瓜专利网。