[发明专利]无监督的文本分类方法、装置、电子设备及存储介质有效

申请号：	202111249214.9	申请日：	2021-10-26
公开（公告）号：	CN113704479B	公开（公告）日：	2022-02-18
发明（设计）人：	张剑;程刚;黄仁杰;刘代琴	申请（专利权）人：	深圳市北科瑞声科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06N3/08
代理公司：	深圳智汇远见知识产权代理有限公司 44481	代理人：	刘洁
地址：	518036 广东省深圳市福田区梅林街道***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	监督文本分类方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术，揭露了一种无监督的文本分类方法，包括：获取文本训练集合，基于所述文本训练集合构建第一训练集合及第二训练集合，获取预构建的原始聚类模型，利用所述原始聚类模型的聚类层对所述第一训练集合进行聚类处理，并计算聚类后的第一训练集合的聚类损失，利用所述原始聚类模型的对比学习层计算所述第二训练集合的对比损失，联合所述聚类损失及所述对比损失对所述原始聚类模型进行训练，得到标准聚类模型，利用所述标准聚类模型对待分类文本进行分类，得到分类结果。本发明还提出一种无监督的文本分类装置、电子设备以及计算机可读存储介质。本发明可以解决文本分类的准确率较低的问题。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种无监督的文本分类方法、装置、电子设备及计算机可读存储介质。

背景技术

聚类是无监督学习中最基本的挑战之一，已经被广泛用于文本分类。现有技术中的聚类方法存在以下缺陷：1、传统聚类算法如K-means聚类算法和高斯混合模型过于依赖于在数据空间中测量的距离，这对于高维数据往往是无效的；2、深度神经网络作为一种将数据映射到低维且希望更好的可分离表示空间的有效方法，但是在存在大量的复杂数据的情况下，即使有深度神经网络，在聚类开始之前，数据仍然在类别之间有显著的重叠。因此，现有技术中的聚类方式使得现有技术中文本分类的准确率较低。

发明内容

本申请提供了一种无监督的文本分类方法、装置、电子设备及存储介质，以解决文本分类的准确率较低的问题。

第一方面，本申请提供了一种无监督的文本分类方法，所述方法包括：

获取文本训练集合，基于所述文本训练集合构建第一训练集合及第二训练集合；

获取预构建的原始聚类模型，利用所述原始聚类模型的聚类层对所述第一训练集合进行聚类处理，并计算聚类后的第一训练集合的聚类损失；

利用所述原始聚类模型的对比学习层计算所述第二训练集合的对比损失，联合所述聚类损失及所述对比损失对所述原始聚类模型进行训练，得到标准聚类模型；

利用所述标准聚类模型对待分类文本进行分类，得到分类结果。

详细地，所述基于所述文本训练集合构建第一训练集合及第二训练集合，包括：

从所述文本训练集合中选取预设个数的文本文档作为训练实例，汇总所有选取的训练实例得到所述第一训练集合；

从所述第一训练集合中的训练实例中随机选取预设个数的单词，利用预设的掩码语言模型将所述预设个数的单词随机插入或替换所述第一训练集合的每个训练实例的文本中，得到增广实例；

汇总所述训练实例以及所述训练实例对应的增广实例，得到所述第二训练集合。

详细地，所述利用所述原始聚类模型的聚类层对所述第一训练集合进行聚类处理，并计算聚类后的第一训练集合的聚类损失，包括：