[发明专利]一种文本多标签分类方法及系统有效

专利信息
申请号: 202111057725.0 申请日: 2021-09-09
公开(公告)号: CN113672736B 公开(公告)日: 2023-08-22
发明(设计)人: 王本强;谢赟;吴新野;韩欣 申请(专利权)人: 上海德拓信息技术股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/242;G06F40/284;G06F40/289;G06N20/00
代理公司: 上海中外企专利代理事务所(特殊普通合伙) 31387 代理人: 孙益青
地址: 200233 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 标签 分类 方法 系统
【说明书】:

发明公开了一种文本多标签分类方法及系统,方法包含:获取目标文本数据及其标注标签并处理得到文本数据及其标注标签;将文本数据进行数据增广;对增广后的文本数据及其标注标签构建深度学习模型;将待处理数据输入深度学习模型中获取待处理数据的标签数据;对标签数据进行判别处理得到待处理数据的标注标签;系统包含数据处理模块获取目标文本数据及其标注标签并处理得到文本数据及其标注标签;数据增广模块对文本数据进行数据增广;深度学习模型构建模块用于构建深度学习模型,还用于获取待处理数据并输入深度学习模型中获取待处理数据的标签数据;判别处理模块用于对标签数据进行判别得到待处理数据的标注标签。

技术领域

本发明涉及一种文本多标签分类领域,具体涉及一种文本多标签分类方法及系统。

背景技术

文本多标签服务是对文章的标题和内容进行深度分析,自动输出能够反映文章关键信息的主题、话题、实体等多维度标签,包含多维度信息,全面覆盖文章关键信息主题,可广泛应用于文章聚合、个性化推荐、内容检索等场景;

目前文本多标签技术存在以下几种实现方案:

1.将文本数据的每个字或词,通过one-hot编码成数字向量,再计算数字向量与样本数据的数字向量之间的欧氏距离或余弦相似度,此方法具有一定的效果,但是其不可避免的会出现维度灾难、计算量大、向量稀疏等问题,极大降低了文本分类的准确率和效率;

2.利用机器学习算法,如极端梯度提升树(Xgboost)、支持向量机(SVM)、逻辑回归等,其思想是利用特征工程,通过文本预处理、文本表示、特征提取将数据转化为信息后,利用机器学习算法进行分类,并取得了一定的成就,但一方面特征工程耗时且不具备通用性;一方面文本表示存在稀疏问题;一方面在分类决策时,仅仅考虑词的信息,未考虑顺序等融合问题;

3.利用深度学习算法,其思想是通过词向量模型,将文本数据转化为稠密的向量,再利用lstm、textcnn等算法进行分类,但这些算法都没有文本的先验信息;

4.利用bert等预训练语言模型,其通过大量先验知识训练字向量,再将包含先验知识的字向量喂入深度学习模型,能够取得较好的效果,但一方面,其并未考虑样本不均衡情况;一方面,对于数据量不足情况时,其鲁棒性较差;

对于文本多层级分类来说,一般来说有以下两种处理方案:

1.建立多个层级分类模型,即根据标签的层级关系一层层构建多个模型,其一定程度上能融合文本层级信息,但一方面随着层级结构加深,模型数量和耗时呈指数级增加;一方面这种递进式方式,极易造成误差的传播;

2.将标签体系拍平,其基本思想是对层级结构拆分,所有标签一视同仁,再利用单层级的模型进行分类,此方法好处是简单高效,但其并未融合标签的层级关联信息,丢失了层级的整体性。

发明内容

本发明要解决的技术问题是现有的文本多标签计算量大、存在向量稀疏等问题,极大降低了文本分类的准确率和效率,本发明提供一种文本多标签分类方法,本发明还提供一种文本多标签分类系统,能够避免误差的传播并提高了运算效率,采用同义词替换、随机插入、随机交换、随即删除、汉英互译的文本增广方式,缓解了训练数据数据量不足和样本不均衡的问题;在模型层采用FGM模型,增加了模型的鲁棒性;训练时利用FP16方法,加快了模型的训练速度;损失函数采用focal loss,缓解了样本不均衡问题;采用BMA加权模型最后几个批次的参数,提高了模型的泛化能力;利用标签了层级信息,模型训练时注入了标签之间的关联信息,同时也保障了层级的完整性能够对自然语言文本进行解析,从而精准定位文档主题,将文档主题提炼成多个包含层级信息的标签,从而满足用户进行文档管理、推荐、检索等需求,用以解决现有技术导致的缺陷。

为解决上述技术问题本发明提供以下的技术方案:

第一方面,一种文本多标签分类方法,其中,包含以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海德拓信息技术股份有限公司,未经上海德拓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111057725.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top