[发明专利]分类器的生成方法及装置、文本的分类方法及装置有效
申请号: | 202010069042.6 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111259975B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 陈帅;陈弢 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 周达;刘飞 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 生成 方法 装置 文本 | ||
本说明书提供一种分类器的生成方法及装置、文本的分类方法及装置,在进行分类器的生成时,加入了基于样本类别数量计算出的惩罚项,使得决策树的节点包含的类别数量尽量少,提高了节点分裂的纯度。利用该方法训练出的分了器对文本进行分类,可以实现一个分类器对文本类别的多分类计算,因为加入的类别惩罚项,即使进行多分类计算时,也能够保证分类结果的纯度和准确性。并且,一个分类器对文本类别的多分类计算,不需要针对不同的类别分类建立不同的分类器。
技术领域
本说明书属于计算机技术领域,尤其涉及一种分类器的生成方法及装置、文本的分类方法及装置。
背景技术
随着互联网和计算机技术的发展,使用分类器对数据进行分类的场景越来越多,例如:线上交易的业务种类和数量越来越多,大大方便了人们的生活,但同时也带来了越来越多的风险,需要对风险类别进行分类。通常分类器只能进行二分类,对于不同类别的分类,需要建立不同的分类器模型。并且,不同类别的分类器的构建方式可能不同,分类器的构建、维护需要比较多的人力、时间等成本。
发明内容
本说明书实施例的目的在于提供一种分类器的生成方法及装置、文本的分类方法及装置,实现了多类别的分类,提高了多类别分类的准确性。
第一方面,本说明书实施例提供了一种分类器的生成方法,包括:
获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;
从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;
基于所述多棵决策树生成所述分类器。
第二方面,本说明书提供了一种文本的分类方法,包括:
接收用户提供的文本数据;
获取所述文本数据的多个维度的特征数据;
将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
基于所述预测类别确定所述文本数据的目标类别。
第三方面,本说明书实施例提供了一种分类器的生成装置,包括:
样本获取模块,用于获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;
模型训练模块,用于从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;
分类器构建模块,用于基于所述多棵决策树生成所述分类器。
第四方面,本说明书实施例提供了一种文本的分类装置,包括:
数据接收模块,用于接收用户提供的文本数据;
特征提取模块,用于获取所述文本数据的多个维度的特征数据;
数据输入模块,用于将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010069042.6/2.html,转载请声明来源钻瓜专利网。