[发明专利]多标签文本分类方法、系统及计算机设备在审
申请号: | 202210608524.3 | 申请日: | 2022-05-31 |
公开(公告)号: | CN114970727A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 秦峰;张立波 | 申请(专利权)人: | 上海众至科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 康丽丽 |
地址: | 201210 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 文本 分类 方法 系统 计算机 设备 | ||
1.一种多标签文本分类方法,其特征在于,所述方法包括:
获取多标签文本数据集,所述多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;
基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;所述预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,所述目标文本分类工具包括目标文本分类模型和目标规则引擎;
基于所述目标文本分类工具处理待分类文本数据获得目标分类结果。
2.根据权利要求1所述的多标签文本分类方法,其特征在于,所述获取多标签文本数据集之后,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具之前,所述方法还包括:
按预设比例将所述多标签文本数据集分为训练集、验证集和测试集;
所述预设文本分类模型至少包括DeBERTa预训练语言模型模块、全连接层模块和激活函数模块;
所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具包括:
基于所述训练集和预设训练参数训练所述预设文本分类工具以确定所述预设文本分类模型的学习参数并基于所述验证集选择所述预设文本分类模型的超参数获得中间文本分类模型;
基于所述测试集测试所述中间文本分类模型直至所述中间文本分类模型收敛平稳获得目标文本分类模型。
3.根据权利要求2所述的多标签文本分类方法,其特征在于,所述获取多标签文本数据集之后,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具之前,所述方法还包括:
预处理所述标注有类别标签的个人健康信息文本数据,包括:
按照每行包括文本数据和类别标签的格式处理所述标注有类别标签的个人健康信息文本数据;所述类别标签至少有两个,所述类别标签之间以分隔符‘|’分割;
编码处理所述文本数据以生成文本编码向量,并转化所述类别标签生成标签one-hot的表示。
4.根据权利要求3所述的多标签文本分类方法,其特征在于,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具还包括:
分析所述标注有类别标签的个人健康信息文本数据获得提炼规则;
将所述提炼规则逐个写入所述预设规则引擎获得所述目标规则引擎以根据不同类别处理相应规则。
5.根据权利要求1所述的多标签文本分类方法,其特征在于,所述基于所述目标文本分类工具处理待分类文本数据获得目标分类结果之前,所述方法还包括:
部署所述目标文本分类工具至服务器端,并设置RESTfulAPI接口以供调用所述目标文本分类工具。
6.根据权利要求5所述的多标签文本分类方法,其特征在于,所述基于所述目标文本分类工具处理待分类文本数据获得目标分类结果包括:
接收待分类文本数据;
基于所述目标文本分类模型处理所述待分类文本数据获得模型输出结果,所述模型输出结果为输出类别或其他;
若所述模型输出结果为输出类别,则基于所述输出类别触发所述目标规则引擎校验所述待分类文本数据;
若校验通过,则输出目标分类结果为所述模型输出类别。
7.根据权利要求6所述的多标签文本分类方法,其特征在于,所述方法还包括:
若所述模型输出结果为其他,保存所述待分类文本数据以供优化所述目标文本分类工具。
8.根据权利要求6所述的多标签文本分类方法,其特征在于,若校验不通过,则保存所述待分类文本数据并反馈所述校验结果至所述目标文本分类模型以迭代优化所述目标文本分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海众至科技有限公司,未经上海众至科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210608524.3/1.html,转载请声明来源钻瓜专利网。