[发明专利]一种基于全覆盖粒计算的K‑medoids文本聚类方法在审

专利信息
申请号: 201711321280.6 申请日: 2017-12-12
公开(公告)号: CN107908624A 公开(公告)日: 2018-04-13
发明(设计)人: 谢珺;邹雪君;杨云云;续欣莹 申请(专利权)人: 太原理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06K9/62
代理公司: 太原市科瑞达专利代理有限公司14101 代理人: 卢茂春
地址: 030024 山西*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 覆盖 计算 medoids 文本 方法
【说明书】:

技术领域

发明涉及全覆盖粒计算和文本挖掘技术,特别是涉及全覆盖粒计算的粒化以及文本聚类的方法。

背景技术

互联网快速发展带来的信息过载、缺乏结构性等问题,使得人们很难在海量的信息中快速、准确地获取用户感兴趣的、潜在有用的内容,依靠手工对这些信息进行处理是不可能的。目前,绝大多数的网络信息都表现为文本形式,文本数据作为非结构化的数据,不像结构化的数据便于处理,因此大大降低了文本数据的利用率,而且大多数传统的信息检索技术不能处理海量的文本数据。数据挖掘是一门从大量有效数据中挖掘隐藏信息的有效技术,文本挖掘则是对文本信息进行数据挖掘的过程,随着文本数据的增长,文本挖掘成为数据挖掘领域中一个重要的研究方向,文本聚类是文本挖掘的预处理步骤,是文本进一步挖掘与分析的关键环节。文本聚类主要是对样本文档集计算相似性,并根据相似性程度将样本划分成若干类簇,同类簇的文档间相似性较大,不同内簇间的文档相似性则较小。

文本聚类一直是国内外研究学者关注的热点、难点问题,研究已经取得巨大的成果,但是还是存在一系列亟待解决的关键问题,如样本的词向量空间维度过大,聚类中心的随机选取问题和计算复杂度大等。如何对数据降维,提高聚类质量,降低计算复杂度等都需要我们做进一步的研究。

发明内容

本发明为了解决传统聚类方法随机选取聚类中心和文本聚类方法准确率较低的问题,提供一种基于全覆盖粒计算的K-medoids文本聚类方法,该方法包括以下步骤:

1.对文本进行预处理,包括中文分词,去停用词;

2.对文本进行特征提取,设置高频词与低频词阈值,滤除区分度不够的高频词和代表性不强的低频词,然后利用TF-IDF算法建立词向量空间模型;

3.利用SinglePass算法对文档聚类,得到粗聚类集C1,C2,..Cp,构成全覆盖计算C={Ci:i=1,…,p},按照全覆盖粒计算的相关定义分别计算粒度重要性和平均粒度重要性,选择的粒子放入到集合S中。不妨假设S中含有N个粒子(N<p),若N≥K则进行第4步,若N<K则返回第3步,在SinglePass中调整阈值δ直至N≥K,然后进行第4步;

4.按照公式(1)计算S中每个粒子的中心,任意两个中心粒子间的欧式距离记为矩阵D;

5.选择包含更多粒子对应的中心作为第一个聚类中心v1,选择距v1最远的粒子中对应的中心作为第二个聚类中心v2;对于S中剩余粒子,根据矩阵D分别求出其中心到v1,v2距离为di1,di2,取di=min(di1,di2),d=max(di)对应的粒子中心为vi,依此类推计算vk,此时找到K个初始聚类中心

6.对于任意xi∈U,首先寻找与其最近的类心vm(m=1,2,...k),此时样本分为K类;

7.选每个类簇中与该簇其他对象距离之和最小的对象作为新的聚类中心,在K类中用新中心代替原始中心;

8.重新分配每个对象到距离最近的中心点,获得聚类结果;

9.计算所有对象到其类簇中心的距离之和,如果该值不变或者达到最大迭代次数则算法结束,否则转到第8步。

所述的文本特征提取,具体包括以下操作:首先滤除区分度不够的高频词和代表性不强的低频词,即假设词j的频率为m,M1为低频词频率,M2为高频词频率,若M1<m<M2则保留该词,否则剔除,达到降维的目的。

所述的TF-IDF算法,具体包括以下操作:

xij表示第i篇文档中词j出现的频率,|xi|表示该篇文档中所有词的词频总数,n表示样本总数,|xj|表示词j包含的样本总数,N表示文档所有词的数量。

所述的single-pass聚类,具体包括以下操作:

1)从文档集n中输入第一篇文档d1作为第一类中的中心;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711321280.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top