[发明专利]文本聚类方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202110343309.0 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112949759A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 张楠;王健宗;瞿晓阳 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06F16/35 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本发明涉及大数据技术,揭露了一种文本聚类方法,包括:获取待分类文本集,构建搜索空间;在所述搜索空间中随机生成初始种群;利用磷虾群算法对所述初始种群进行更新,得到第二种群;利用涡流搜索算法对所述第二种群进行更新,得到第三种群;计算所述第三种群中每个个体的目标函数值,选择所述目标函数值最小的个体,得到当前最优个体,直到满足预设的终止条件,得到最终最优个体;将所述待分类文本集中的文本进行分类,得到分类结果。此外,本发明还涉及区块链技术,所述待分类文本集可存储于区块链的节点。本发明还提出一种文本聚类装置、电子设备以及计算机可读存储介质。本发明可以解决文本聚类精确度低,错误率较高的问题。
技术领域
本发明涉及大数据技术领域,尤其涉及一种文本聚类方法、装置、电子设备及计算机可读存储介质。
背景技术
随着大数据时代的到来,文本数据的规模也不断扩大。对于海量的文本,预先进行分类处理,如根据不同的专业领域来将文本进行分类,使得相同专业领域的数据进行统一处理,这样便可以大大提升工作效率。
传统的文本聚类算法如K-means,K-mean和DBSCAN等等,但是这些算法在很大程度上取决于初始数据的情况,当初始数据之间关联性较弱时,,大部分时间最终都会导致收敛到局部最优的情况,导致最终数据聚类结果精确度低,错误率较高。
发明内容
本发明提供一种文本聚类方法、装置及计算机可读存储介质,其主要目的在于解决文本聚类精确度低,错误率较高的问题。
为实现上述目的,本发明提供的一种文本聚类方法,包括:
获取待分类文本集,并根据所述待分类文本集构建搜索空间;
在所述搜索空间中随机生成所述待分类文本集的初始种群;
利用磷虾群算法对所述初始种群进行更新,得到第二种群;
利用涡流搜索算法对所述第二种群进行更新,得到第三种群;
计算所述第三种群中每个个体的目标函数值,选择所述目标函数值最小的个体,得到当前最优个体,并返回所述利用磷虾群算法对所述初始种群进行更新的步骤,直到满足预设的终止条件,得到最终最优个体;
根据所述最终最优个体利用预设的距离公式将所述待分类文本集中的文本进行分类,得到分类结果。
可选地,所述根据所述待分类文本集构建搜索空间,包括:
将所述待分类文本集中每个文本转化为文本特征向量;
将所述文本特征向量按照预设的种类数进行排列组合,并将得到的组合结果汇集成搜索空间。
可选地,所述利用磷虾群算法对所述初始种群进行更新,得到第二种群,包括:
计算所述初始种群中每个个体的诱导运动分量、觅食运动分量以及随机扩散运动分量;
在所述搜索空间中根据所述诱导运动分量、觅食运动分量和随机扩散运动分量对所述初始种群中的每个个体进行位置更新,得到第二种群。
可选地,所述利用涡流搜索算法对所述第二种群进行更新,得到第三种群,包括:
计算所述初始种群中每个个体的目标函数值,选择最小的目标函数值对应的个体作为最优解;
利用预设公式在所述搜索空间中计算搜索半径;
以所述最优解为中心及根据所述搜索半径确定搜索区域,在所述搜索区域中利用高斯分布产生候选种群;
将所述候选种群中每个个体与所述第二种群中对应的个体相比较,根据比较结果利用贪婪选择策略更新所述第二种群,得到第三种群。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110343309.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种编解码方法、装置及其设备
- 下一篇:一种编解码方法、装置及其设备