[发明专利]一种基于谱分解的自适应文档聚类方法及系统在审
申请号: | 202011103403.0 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112347246A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 吕晓宝;王元兵;王海荣;饶淑梅 | 申请(专利权)人: | 中科曙光南京研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/253;G06F40/284;G06F40/289 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 窦贤宇 |
地址: | 211102 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分解 自适应 文档 方法 系统 | ||
本发明提出了一种基于谱分解的自适应文档聚类方法及实现该方法的系统,实现将相似的文档归为一类,并将不相似的文档划分成不同的类别的目的,同时本发明提出的对应方法对于文本数据量大的情况拥有较好的自适应能力。其中所述方法,首先将文本通过分词,构建词表,去除低频词,合并近义词,根据词表构建文档向量,并进一步建立文档相似矩阵;根据相似矩阵的稀疏化处理,及拉普拉斯的计算,获得特征值和特征向量,并以此作为聚类数目的划分依据,在确定聚类中心后利用循环迭代的方式,从而获得文档聚类的结果。
技术领域
本发明涉及一种自适应文档聚类方法及基于谱聚类的分类结果,特别是涉及一种数据分析与挖掘中的文本分类领域。
背景技术
随着现代计算机技术的发展,基于计算机技术的互联网也得到的显著的提升,大量电子文本数据成了大众生活中不可或缺的电子信息,对于文本数据的有效分析和聚类划分,可以更好的挖掘出文本中的隐含信息。
现有技术中,传统的文本聚类方法在非凸样本空间上极易陷入局部最优解,从而影响聚类效果,且传统聚类方法无法适应任意形态的样本空间分布;另一方面,在没有先验知识的情况详细,聚类数目的多少又直接影响最终的聚类效果,而现有技术却又很难确定最终聚类的数目。
发明内容
发明目的:一个目的是提出一种基于谱分解的自适应文档聚类方法,以解决现有技术存在的上述问题。进一步目的是提出一种实现上述方法的系统。
技术方案:一种基于谱分解的自适应文档聚类方法包括以下步骤:
步骤一:将待进行聚类的文档转换成文档向量并降维;
步骤二:根据降维后的文档向量构造稀疏矩阵;
步骤三:根据拉普拉斯矩阵计算,获得作为聚类数目依据的特征值和特征向量;
步骤四:确定聚类数目并将获得的特征矩阵进行归一化。
步骤五:通过循环迭代,实现文档聚类,并将聚类结果输出至用户端的可视化界面。
在进一步的实施例中,所述步骤一进一步为:接收用户端输入的文档并对所述输入文档进行分词,所述分词采用python计算机语言的三方库对文档中的语句进行词性的划分,并由此进一步获得分词后组成的词典;所述降维通过停用词的过滤、近义词合并以及剔除低词频,进行文档向量维度的降低。
在进一步的实施例中,所述文档向量的建立进一步为采用TF-IDF为待进行聚类的文档建立文档向量,具体为首先根据待进行聚类的N个文档,调用编程语言中的第三方库,并删除低频词和停用词,从而建立文档向量,进而得到文档矩阵B,其中矩阵的每行向量均表示一个对应的文档,其中所述N表示正整数。进一步为TF-IDF为N个文档建立文档向量过程中,对于任意文档dj的词语ti,其对应的词频tfij、逆向文件频率idfi如下:
其中,nij表示词语ti在文档dj中出现的频次,|SD|表示文档的总数N,|{j:ti∈dj}|表示包含词语ti的文档数量。令
tfidfij=tfij×idfi
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科曙光南京研究院有限公司,未经中科曙光南京研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011103403.0/2.html,转载请声明来源钻瓜专利网。