[发明专利]一种基于谱分解的自适应文档聚类方法及系统在审
申请号: | 202011103403.0 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112347246A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 吕晓宝;王元兵;王海荣;饶淑梅 | 申请(专利权)人: | 中科曙光南京研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/253;G06F40/284;G06F40/289 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 窦贤宇 |
地址: | 211102 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分解 自适应 文档 方法 系统 | ||
1.一种基于谱分解的自适应文档聚类方法,其特征在于,包括:
步骤一:将待进行聚类的文档转换成文档向量并降维;
步骤二:根据降维后的文档向量构造稀疏矩阵;
步骤三:根据拉普拉斯矩阵计算,获得作为聚类数目依据的特征值和特征向量;
步骤四:确定聚类数目并将获得的特征矩阵进行归一化。
步骤五:通过迭代,实现文档聚类,并将聚类结果输出至用户端的可视化界面。
2.根据权利要求1所述的一种基于谱分解的自适应文档聚类方法,其特征在于,所述步骤一进一步为:
接收用户端输入的文档并对所述输入文档进行分词,所述分词采用计算机语言的第三方库对文档中的语句进行词语划分,并由此进一步获得分词后组成的词典;
所述降维通过停用词的过滤、近义词合并以及剔除低词频,进行文档向量维度的降低;
其中,所述文档向量的建立进一步为采用TF-IDF为N个文档建立文档向量,其中对于任意文档dj的词语ti,其对应的词频tfij、逆向文件频率idfi如下:
其中,nij表示词语ti在文档dj中出现的频次,|SD|表示文档的总数N,|{j:ti∈dj}|表示包含词语ti的文档数量;令
tfidfii=tfij×idfi
获得文档向量构成的矩阵A=(tfidfij)N×M,接着对文档进行进一步降维;其中对于词语ti包含其文档数目为Ni,进一步得到一个向量(Ni,…,NM)并对其从大到小进行排序,设定预定义的参数x,接着直接选取前M×x个分量保留,进而达到词向量压缩的效果;其最终得到的文档矩阵记为B=(bij)N×M。
3.根据权利要求1所述的一种基于谱分解的自适应文档聚类方法,其特征在于,所述步骤二进一步为:
根据步骤一中所述文档矩阵B构建稀疏对称相似矩阵S;其中文档矩阵B的每行向量均表示一个对应的文档,其中所述N表示文档数量;所述根据已有的文档矩阵B构造稀疏对称相似矩阵S,进一步为:
S=(Sij)N×N
其中,b1,…bN中下标的数值表示文档矩阵B对应的一行,M表示自然数,N表示自然数,σ表示决定谱聚类效果的尺度参数,即:
其中,利用迭代计算任意两个文本TF-IDF向量之间的欧式距离,并将计算获得的距离值从高到低进行排序,然后选取其中前50%的距离值,求选取其中前50%的距离值的平均值,从而获得davg;
其中所述稀疏矩阵的构建为通过设定阈值对相似矩阵进行稀疏化处理,最终得到对称稀疏矩阵S,进一步为设定一个预定义的阈值m,当构建的文档向量矩阵中元素小于m时,则将其置为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科曙光南京研究院有限公司,未经中科曙光南京研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011103403.0/1.html,转载请声明来源钻瓜专利网。