[发明专利]文本聚类方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202110343309.0 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112949759A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 张楠;王健宗;瞿晓阳 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06F16/35 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种文本聚类方法,其特征在于,所述方法包括:
获取待分类文本集,并根据所述待分类文本集构建搜索空间;
在所述搜索空间中随机生成所述待分类文本集的初始种群;
利用磷虾群算法对所述初始种群进行更新,得到第二种群;
利用涡流搜索算法对所述第二种群进行更新,得到第三种群;
计算所述第三种群中每个个体的目标函数值,选择所述目标函数值最小的个体,得到当前最优个体,并返回所述利用磷虾群算法对所述初始种群进行更新的步骤,直到满足预设的终止条件,得到最终最优个体;
根据所述最终最优个体利用预设的距离公式将所述待分类文本集中的文本进行分类,得到分类结果。
2.如权利要求1所述的文本聚类方法,其特征在于,所述根据所述待分类文本集构建搜索空间,包括:
将所述待分类文本集中每个文本转化为文本特征向量;
将所述文本特征向量按照预设的种类数进行排列组合,并将得到的组合结果汇集成搜索空间。
3.如权利要求1所述的文本聚类方法,其特征在于,所述利用磷虾群算法对所述初始种群进行更新,得到第二种群,包括:
计算所述初始种群中每个个体的诱导运动分量、觅食运动分量以及随机扩散运动分量;
在所述搜索空间中根据所述诱导运动分量、觅食运动分量和随机扩散运动分量对所述初始种群中的每个个体进行位置更新,得到第二种群。
4.如权利要求3所述的文本聚类方法,其特征在于,所述利用涡流搜索算法对所述第二种群进行更新,得到第三种群,包括:
计算所述初始种群中每个个体的目标函数值,选择最小的目标函数值对应的个体作为最优解;
利用预设公式在所述搜索空间中计算搜索半径;
以所述最优解为中心及根据所述搜索半径确定搜索区域,在所述搜索区域中利用高斯分布产生候选种群;
将所述候选种群中每个个体与所述第二种群中对应的个体进行比较,根据比较结果利用贪婪选择策略更新所述第二种群,得到第三种群。
5.如权利要求4所述的文本聚类方法,其特征在于,所述将所述候选种群中每个个体与所述第二种群中对应的个体相比较,根据比较结果利用贪婪选择策略更新所述第二种群,包括:
利用预设的目标函数对所述候选种群中每个个体进行计算,得到多个候选目标值;
利用所述目标函数对所述第二种群中与所述候选种群中每个个体对应的个体进行计算,得到原始目标值;
在所述第二种群的每个个体对应的所述候选目标值小于所述原始目标值时,用所述候选目标值对应的个体替代所述第二种群中对应的个体。
6.如权利要求1所述的文本聚类方法,其特征在于,所述根据所述最终最优个体利用预设的距离公式将所述待分类文本集中的文本进行分类,得到分类结果,包括:
将所述最终最优个体中的特征向量集进行拆解,得到多个聚类中心向量;
获取所述待分类文本集中每个文本对应的文本特征向量;
通过预设的距离公式计算每个所述文本特征向量与每个所述聚类中心向量的距离,将所述文本特征向量与最小距离对应的聚类中心向量划分为同一类别,得到分类结果。
7.如权利要求1至6中任意一项所述的文本聚类方法,其特征在于,所述计算所述第三种群中每个个体的目标函数值,包括:
采用下述公式计算所述目标函数值:
其中,xi为待分类文本集对应的文本特征向量,n为待分类文本集中文本总数,Cj为所述个体中的中心组合中的聚类中心向量,k为预设的种类数,p为预设参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110343309.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种编解码方法、装置及其设备
- 下一篇:一种编解码方法、装置及其设备