[发明专利]一种多层级多类别的中文文本分类的实现方法及装置在审

专利信息
申请号: 202010542735.2 申请日: 2020-06-15
公开(公告)号: CN111737465A 公开(公告)日: 2020-10-02
发明(设计)人: 代晓菊;丁富强;陆晋军;孙海;蒋润青;张亮;李铮;钱志骥 申请(专利权)人: 上海理想信息产业(集团)有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/16;G06F16/335
代理公司: 上海国智知识产权代理事务所(普通合伙) 31274 代理人: 潘建玲
地址: 201315 上海市浦东*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 多层 类别 中文 文本 分类 实现 方法 装置
【说明书】:

发明公开了一种多层级多类别的中文文本分类的实现方法及装置,该方法包括如下步骤:步骤S1,结合训练数据集合中的实际分类体系的树形结构,构建与该树形结构对应的N层文本分类多叉树,根据所述N层文本分类多叉树的结构,将所述训练数据集合中的训练数据分别写入到各层级对应的分类文件中;步骤S2,对各分类文件的中文文本进行分词,并进行特征选择保存到对应的特征文件中;步骤S3,选择分类算法,并设定、调整算法参数集,将步骤S2保存的特征文件数据导入所述分类算法中,迭代生成训练数据的每个分类与子分类模型并保存。

技术领域

本发明涉及自然语言处理和机器学习技术领域,特别是涉及一种多层级多类别的中文文本分类的实现方法及装置。

背景技术

文本分类是计算机对自然语言按照一定的类目体系进行自动化归类的过程,在很多领域有重大应用,例如以电信10000号客服中心平台为例,希望能够通过自动文本分类的手段,实现客户来访工单的准确分类及快速记录,从而达到加快现场话务员服务响应能效,提升整体服务质量,提高热线整体运营数据分析的智能化程度,优化管理的效果。

目前随着机器学习的研究逐渐深入,文本分类方法不断改进,目前在文本分类领域的研究取得较大进展,很多研究提出了多层级多类别的分类体系。

这种多层级多类别的分类体系是指,多个类别的层级之间是递进关系,一般是首先分为几大类,每一大类中包含若干中类,每个中类中又包含若干小类,每一小类下再分小小类,如此顺延,最后,每一个文本都可以分到某一个类目下,而其中的大类、中类、小类、小小类等之间存在着自上而下的逻辑关系。多层级多类别的文本分类不仅费时费力,覆盖的范围和准确率也非常有限,如何快速精确地对多层级多类别的中文文本分类是一个重要的研究范畴。

然而,现有技术中,在多层级多类别的中文文本方向,由于多层级多类别和大规模文本数据及不均衡性的限制,多层级多类别的文本分类不仅费时费力,覆盖的范围和准确率也非常有限,在分类准确率和分类效率上仍没有较好的分类方法。

发明内容

为克服上述现有技术存在的不足,本发明之目的在于提供一种多层级多类别的中文文本分类的实现方法及装置,以实现一种快捷高效、高准确率的文本分类技术。

为达上述目的,本发明提出一种多层级多类别的中文文本分类的实现方法,包括如下步骤:

步骤S1,结合训练数据集合中的实际分类体系的树形结构,构建与该树形结构对应的N层文本分类多叉树,根据所述N层文本分类多叉树的结构,将所述训练数据集合中的训练数据分别写入到各层级对应的分类文件中;

步骤S2,对各分类文件的中文文本进行分词,并进行特征选择保存到对应的特征文件中;

步骤S3,选择分类算法,并设定、调整算法参数集,将步骤S2保存的特征文件数据导入所述分类算法中,迭代生成训练数据的每个分类与子分类模型并保存。

优选地,于步骤S1之前,还包括如下步骤:

步骤S0,获取文本的训练数据集合、验证数据集合及待分类的测试数据集合。

优选地,于步骤S1中,以文件命名规则R对分类文件进行文件命名,将类别号的命名规则与其对应的中文类别名称保存为分类文件。

优选地,步骤S2进一步包括:

步骤S200,利用中文分词工具依次对分类文件的中文文本进行分词;

步骤S201,构建停用词库,将利用构建的停用词库对步骤S200的分词结果进行筛除;

步骤S302,利用特征选择工具选择前m维特征作为特征库。

优选地,于步骤S201中,所述停用词库包括但不限于数字、英文字符、副词、语气词以及与业务无关词汇,可根据实际工单文本数据内容的需要,增添、删改停用词库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海理想信息产业(集团)有限公司,未经上海理想信息产业(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010542735.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top