[发明专利]一种文本多标签分类方法及系统有效
申请号: | 202111057725.0 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113672736B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 王本强;谢赟;吴新野;韩欣 | 申请(专利权)人: | 上海德拓信息技术股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242;G06F40/284;G06F40/289;G06N20/00 |
代理公司: | 上海中外企专利代理事务所(特殊普通合伙) 31387 | 代理人: | 孙益青 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 标签 分类 方法 系统 | ||
1.一种文本多标签分类方法,其特征在于,包含以下步骤:
步骤A1:获取目标文本数据及其标注标签并对目标文本数据及其标注标签进行处理得到文本数据及其标注标签;
步骤A2:将文本数据进行数据增广;
步骤A3:对增广后的文本数据及其标注标签构建深度学习模型;
步骤A4:将待处理数据输入深度学习模型中获取待处理数据的标签数据;
步骤A5:对标签数据进行判别处理得到待处理数据的标注标签;
所述步骤A1中对目标文本数据及其标注标签进行处理的步骤如下:
步骤B1:采用python工具或ETL工具对目标文本数据及其标注标签进行重复数据和异常数据的去除;
步骤B2:将目标文本数据的标注标签进行层级结构拆分得到标签链;
步骤B3:在标签链中获取目标文本数据标注标签的父标签并标注在该目标文本数据上得到文本数据及其标注标签;
步骤A2中对文本数据进行数据增广的步骤如下:
步骤C1:统计目标文本数据中各个标注标签的数据量;
步骤C2:根据各个标注标签数据量的大小进行统计;
步骤C3:根据统计数据对数据量小的标注标签对应的文本数据进行增广;
步骤A3中对增广后的文本数据构建深度学习模型的步骤如下:
步骤D1:将所有标签一一映射为不同且唯一的数字索引,构建标注标签到数字索引的字典,数字索引到标签的字典,数字索引的选取需为非负整数;
步骤D2:根据标签到数字索引的字典将文本数据中的所有标注标签转换为对应的数字索引;
步骤D3:根据文本数据与数字索引构建深度学习模型;
步骤A4中将待处理数据输入深度学习模型中获取待处理数据的标签数据;
步骤E1:获取待处理数据并输入深度学习模型中获取待处理数据的数字索引;
步骤E2:根据数字索引到标签的字典取得待处理数据的标签数据;
步骤A5中对标签数据进行判别处理得到待处理数据的标注标签的步骤如下:
步骤F1:根据标签链获取待处理数据每一个标签的父标签或子标签;
步骤F2:判断父标签或子标签是否在步骤E2中处理数据的标签内;
若在则保留该标签;
若不在则删除该标签;
步骤F3:输出步骤F2得到的所有标签得到待处理数据的标注标签;
所述步骤B1中的异常数据包含空文本、未标注文本、非中英文文本、乱码文本;
步骤C3中增广的方法包含同义词替换、随机插入、随机交换、随机删除、汉英互译中的一种或几种并按照1:1:1:1:1的方式进行增广;
所述同义词替换具体为在句子中随机选取n个非停用词,对选取的每个非停用词用随机选取的同义词替换;
所述随机插入具体为在句子中任意找一个非停用词,随机选一个它的同义词,插入句子中的任意位置,重复n次;
所述随机交换具体为任意选取句子中的两个词并交换位置,重复n次;
所述随机删除具体为对于句子中概率为p的每一个词,随机删除,p为(0,1)区间中的实数;
所述汉英互译具体为利用翻译工具将汉语文本翻译成英文文本,再翻译回汉语文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海德拓信息技术股份有限公司,未经上海德拓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111057725.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高原沥青公路防水施工设备及施工方法
- 下一篇:一种双层孔带式水果分级装置