[发明专利]文本多标签分类方法、装置、设备及存储介质有效

申请号：	202110702628.6	申请日：	2021-06-24
公开（公告）号：	CN113435308B	公开（公告）日：	2023-05-30
发明（设计）人：	方俊波	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06V30/40	分类号：	G06V30/40;G06V30/19;G06V10/82;G06N3/045;G06N3/06
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本标签分类方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本多标签分类方法，其特征在于，所述方法包括：

获取文本集，提取所述文本集中每个文本对应的文本标签，将提取到的所有所述文本标签进行文本去重处理，得到文本标签集；

对所述文本标签集中的每个文本标签进行向量化处理，得到文本标签向量，计算任意两个所述文本标签向量的向量距离，利用所述向量距离对所述文本标签集中的所有文本标签进行聚类，得到一个或者多个文本标签簇，并根据所述文本标签簇的数量以及预设字符为每个所述文本标签簇构建对应的聚类标签；

将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签，得到标签替换文本集；

按照预设的数据分配比例，将所述标签替换文本集划分为第一文本集和第二文本集；

利用所述第一文本集对预构建的第一深度学习模型进行训练，得到初始标签分类模型；

利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别，得到对应的识别标签，汇总所述识别标签，得到识别标签集，及汇总所述聚类标签，得到初始聚类标签集，将所述识别标签集与所述初始聚类标签集进行交集运算，得到聚类标签集；

选取所述聚类标签集中每个聚类标签对应的文本标签簇，得到目标文本标签簇；

过滤所述文本集中不属于所述目标文本标签簇的文本标签，利用预构建的第二深度学习模型对所述过滤后的所述文本集进行预设次数的卷积池化操作，得到特征集；利用预设的激活函数对所述特征集中的每个特征数据进行计算，得到每个特征数据对应的标签分析值；根据所述特征数据对应文本的文本标签确认对应的标签真实值，并利用预构建的损失函数计算所述标签分析值及所述标签真实值之间的损失值；根据所述损失值得到目标标签分类模型；

当接收待分类文本时，利用所述目标标签分类模型对所述待分类文本进行标签分类，得到分类结果。

2.如权利要求1所述的文本多标签分类方法，其特征在于，所述利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别，得到对应的识别标签，包括：

利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别，得到每个所述聚类标签对应的识别概率；

选取所述识别概率大于预设阈值的聚类标签，得到所述识别标签。

3.如权利要求1所述的文本多标签分类方法，其特征在于，所述过滤所述文本集中不属于所述目标文本标签簇的文本标签，包括：

汇总所有所述目标文本标签簇中的文本标签，得到标准文本标签集；

计算所述标准文本标签集在所述文本标签集中的补集，得到过滤标签集；

利用所述过滤标签集对所述文本集中每个文本对应所有文本标签进行过滤，得到标准文本；

汇总所有标准文本得到标准文本集。

4.如权利要求1所述的文本多标签分类方法，其特征在于，所述根据所述文本标签簇的数量以及预设字符为每个所述文本标签簇构建对应的聚类标签，包括：

计算所有所述文本标签簇的数量；

根据所述计算的数量构建相同维度的自然数序列；