[发明专利]文本聚类方法、装置、电子设备及计算机可读存储介质在审

申请号：	202110343309.0	申请日：	2021-03-30
公开（公告）号：	CN112949759A	公开（公告）日：	2021-06-11
发明（设计）人：	张楠;王健宗;瞿晓阳	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/00;G06F16/35
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本方法装置电子设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及大数据技术，揭露了一种文本聚类方法，包括：获取待分类文本集，构建搜索空间；在所述搜索空间中随机生成初始种群；利用磷虾群算法对所述初始种群进行更新，得到第二种群；利用涡流搜索算法对所述第二种群进行更新，得到第三种群；计算所述第三种群中每个个体的目标函数值，选择所述目标函数值最小的个体，得到当前最优个体，直到满足预设的终止条件，得到最终最优个体；将所述待分类文本集中的文本进行分类，得到分类结果。此外，本发明还涉及区块链技术，所述待分类文本集可存储于区块链的节点。本发明还提出一种文本聚类装置、电子设备以及计算机可读存储介质。本发明可以解决文本聚类精确度低，错误率较高的问题。

技术领域

本发明涉及大数据技术领域，尤其涉及一种文本聚类方法、装置、电子设备及计算机可读存储介质。

背景技术

随着大数据时代的到来，文本数据的规模也不断扩大。对于海量的文本，预先进行分类处理，如根据不同的专业领域来将文本进行分类，使得相同专业领域的数据进行统一处理，这样便可以大大提升工作效率。

传统的文本聚类算法如K-means，K-mean和DBSCAN等等，但是这些算法在很大程度上取决于初始数据的情况，当初始数据之间关联性较弱时，，大部分时间最终都会导致收敛到局部最优的情况，导致最终数据聚类结果精确度低，错误率较高。

发明内容

本发明提供一种文本聚类方法、装置及计算机可读存储介质，其主要目的在于解决文本聚类精确度低，错误率较高的问题。

为实现上述目的，本发明提供的一种文本聚类方法，包括：

获取待分类文本集，并根据所述待分类文本集构建搜索空间；

在所述搜索空间中随机生成所述待分类文本集的初始种群；

利用磷虾群算法对所述初始种群进行更新，得到第二种群；

利用涡流搜索算法对所述第二种群进行更新，得到第三种群；