[发明专利]文本聚类方法及装置在审
| 申请号: | 202010713845.0 | 申请日: | 2020-07-22 |
| 公开(公告)号: | CN112036176A | 公开(公告)日: | 2020-12-04 |
| 发明(设计)人: | 刘泽城 | 申请(专利权)人: | 大箴(杭州)科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威;贾依娇 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 方法 装置 | ||
1.一种文本聚类方法,其特征在于,所述方法包括:
获取从网络平台中随机抽取出各个类目下的文本语料;
利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词;
将所述具有文本特征的文本分词输入至预先训练的语言模型,得到文本分词的向量表示;
利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词,具体包括:
利用多模式匹配算法所构建的树形结构,遍历匹配所述各类文本类目下的文本语料;
记录树形结构中与文本语料匹配相一致目标节点对应的模式串;
汇总所述目标节点对应的模式串,形成具有文本特征的文本分词。
3.根据权利要求2所述的方法,其特征在于,所述利用多模式匹配算法所构建的树形结构,遍历匹配所述各类文本类目下的文本语料,具体包括:
利用多模式匹配算法,将预先维护的特征词转换为多模式串后,构建包含有失败指针的树形结构,所述树形结构中每个节点对应有一个失败指针;
将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配,具体包括:
将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向与每个节点对应的模式串进行匹配;
若匹配相不一致,则沿着节点对应失败指针的指向继续与每个节点对应的模式串进行匹配。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述语言模型中所述将所述具有文本特征的文本分词输入至预先训练的语言模型,得到文本分词的向量表示,具体包括:
对所述具有文本特征的文本分词进行离散处理,形成分词序列;
利用所述预先训练的语言模型中多维向量映射参数将离散处理形成的分词序列映射至多维向量空间中,得到文本分词的向量表示。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类,具体包括:
利用基于密度的聚类算法,对所述文本分词的向量表示进行重新组织,构建二叉查找树;
从所述二叉查找树的根节点开始作为中心节点,对所述二叉查找树中每个节点进行最邻近查找,得到所述根节点相邻节点的邻域阈值;
基于所述相邻节点的邻域阈值,对所述文本分词的向量表示进行聚类。
7.根据权利要求6的方法,其特征在于,所述基于所述邻域阈值,对所述文本分词的向量表示进行聚类,具体包括:
按照所述邻域阈值由小至大的排列顺序,逐个将相邻节点加入至所述中心节点后,计算以所述中心节点预设距离为半径形成分布区域内的节点密度差异;
若所述分布区域内的节点密度差异大于预设阈值,则排除当前相邻接点后对剩余节点进行聚类。
8.一种文本聚类装置,其特征在于,所述装置包括:
获取单元,用于获取从网络平台中随机抽取出各个类目下的文本语料;
提取单元,用于利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词;
处理单元,用于将所述具有文本特征的文本分词输入至预先训练的语言模型,处理为文本分词的向量表示;
聚类单元,用于利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的文本聚类方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本聚类方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大箴(杭州)科技有限公司,未经大箴(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010713845.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通讯消息的发送方法及装置
- 下一篇:一种水产品中奥美普林含量的检测方法





