[发明专利]文本多标签分类方法、装置、设备及存储介质有效
申请号: | 202110702628.6 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113435308B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 方俊波 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/19;G06V10/82;G06N3/045;G06N3/06 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标签 分类 方法 装置 设备 存储 介质 | ||
1.一种文本多标签分类方法,其特征在于,所述方法包括:
获取文本集,提取所述文本集中每个文本对应的文本标签,将提取到的所有所述文本标签进行文本去重处理,得到文本标签集;
对所述文本标签集中的每个文本标签进行向量化处理,得到文本标签向量,计算任意两个所述文本标签向量的向量距离,利用所述向量距离对所述文本标签集中的所有文本标签进行聚类,得到一个或者多个文本标签簇,并根据所述文本标签簇的数量以及预设字符为每个所述文本标签簇构建对应的聚类标签;
将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;
按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;
利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,汇总所述识别标签,得到识别标签集,及汇总所述聚类标签,得到初始聚类标签集,将所述识别标签集与所述初始聚类标签集进行交集运算,得到聚类标签集;
选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用预构建的第二深度学习模型对所述过滤后的所述文本集进行预设次数的卷积池化操作,得到特征集;利用预设的激活函数对所述特征集中的每个特征数据进行计算,得到每个特征数据对应的标签分析值;根据所述特征数据对应文本的文本标签确认对应的标签真实值,并利用预构建的损失函数计算所述标签分析值及所述标签真实值之间的损失值;根据所述损失值得到目标标签分类模型;
当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
2.如权利要求1所述的文本多标签分类方法,其特征在于,所述利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,包括:
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到每个所述聚类标签对应的识别概率;
选取所述识别概率大于预设阈值的聚类标签,得到所述识别标签。
3.如权利要求1所述的文本多标签分类方法,其特征在于,所述过滤所述文本集中不属于所述目标文本标签簇的文本标签,包括:
汇总所有所述目标文本标签簇中的文本标签,得到标准文本标签集;
计算所述标准文本标签集在所述文本标签集中的补集,得到过滤标签集;
利用所述过滤标签集对所述文本集中每个文本对应所有文本标签进行过滤,得到标准文本;
汇总所有标准文本得到标准文本集。
4.如权利要求1所述的文本多标签分类方法,其特征在于,所述根据所述文本标签簇的数量以及预设字符为每个所述文本标签簇构建对应的聚类标签,包括:
计算所有所述文本标签簇的数量;
根据所述计算的数量构建相同维度的自然数序列;
将所述自然数序列中的每个自然数与预设字符组合,得到对应的簇标签;
将所述簇标签确定为任一所述文本标签簇的聚类标签。
5.如权利要求1所述的文本多标签分类方法,其特征在于,所述利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型之前,所述方法还包括:
利用预构建的自然语言处理模型作为基础模型;
在所述基础模型后增加全连接网络及sigmoid函数,得到所述初始分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110702628.6/1.html,转载请声明来源钻瓜专利网。