[发明专利]用于文本层级分类的方法、电子设备和存储介质有效
| 申请号: | 202011251117.9 | 申请日: | 2020-11-11 |
| 公开(公告)号: | CN112069321B | 公开(公告)日: | 2021-02-12 |
| 发明(设计)人: | 王东;陈广顺 | 申请(专利权)人: | 震坤行网络技术(南京)有限公司;震坤行工业超市(上海)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/247;G06N3/04 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
| 地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 文本 层级 分类 方法 电子设备 存储 介质 | ||
本公开的实施例涉及用于文本层级分类的方法、设备和介质,涉及信息处理领域。根据该方法,对每项文本数据生成多个层级类目;生成训练样本集合和验证样本集合;对与相同层级中的不同类目相关联的样本数量进行排序;基于样本数量在对应排序结果中的位置,确定多个权重;S1:基于训练样本集合和多标签神经网络模型,生成多标签分类结果集合;S2:基于多标签分类结果集合和多个权重,确定损失值;S3:基于损失值,更新多标签神经网络模型;重复S1‑S3,直至损失值小于预定值以及验证样本集合的准确率达到预定准确率,以得到经训练的多标签神经网络模型。由此,能够在损失函数中考虑多层级类目的多个权重,避免多层级类目数据不均衡和数据质量问题。
技术领域
本公开的实施例总体涉及信息处理领域,具体涉及用于文本层级分类的方法、电子设备和计算机存储介质。
背景技术
不均衡数据广泛存在于现实世界中,比如垃圾邮件检测、机器的故障检测、信用卡的欺诈检测等等。目前业界对于不均衡数据分类的处理方法,主要有以下几方面:一是过采样:通过对于少数类样本进行多次重复抽样提高少数类的样本数,例如随机过采样、SMOTE、ADASYN算法等,该方法增加了少数类的样本,但存在过拟合的风险;二是欠采样,通过对于多数类样本进行随机欠采样或者其他算法降低多数类的样本,例如随机欠采样、EasyEnsemble、BalanceCascade等算法,该方法减少了多数类的样本,存在欠拟合的风险;三是代价敏感学习,通过引入代价敏感矩阵,从算法层面上解决不平衡数据引起的问题,比如决策树可以在分裂标准、剪枝等方面引入代价矩阵等。
发明内容
提供了一种用于文本层级分类的方法、电子设备以及计算机存储介质,能够在损失函数中考虑多个层级类目的多个权重,避免多层级类目数据不均衡和数据质量问题。
根据本公开的第一方面,提供了一种用于文本层级分类的方法。该方法包括:对文本数据集合中的每项文本数据生成多个层级类目作为标签数据,以得到标签数据集合;基于文本数据集合和标签数据集合,生成训练样本集合和验证样本集合;对训练样本集合中与相同层级中的不同类目相关联的样本数量进行排序,以得到与多个层级相关联的多个排序结果;基于训练样本集合中与相同层级中的不同类目相关联的样本数量在对应排序结果中的位置,确定与多个层级类目相关联的多个权重;S1:基于训练样本集合中的文本数据子集合和多标签分类神经网络模型,生成多标签分类结果集合;S2:基于多标签分类结果集合、多个权重、训练样本集合中的标签数据子集合和预定损失函数,确定损失值;S3:基于损失值和梯度下降算法,更新多标签分类神经网络模型中的参数;以及重复步骤S1-S3,直至损失值小于预定值以及验证样本集合的准确率达到预定准确率,以得到经训练的多标签分类神经网络模型。
根据本公开的第二方面,提供了一种电子设备。该电子设备包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据第一方面所述的方法。
在本公开的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
图1是根据本公开的实施例的信息处理环境100的示意图。
图2是根据本公开的实施例的用于文本层级分类的方法200的示意图。
图3是根据本公开的实施例的用于生成多标签分类结果集合的方法300的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于震坤行网络技术(南京)有限公司;震坤行工业超市(上海)有限公司,未经震坤行网络技术(南京)有限公司;震坤行工业超市(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011251117.9/2.html,转载请声明来源钻瓜专利网。





