首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于全覆盖粒计算的K‑medoids文本聚类方法在审

申请号：	201711321280.6	申请日：	2017-12-12
公开（公告）号：	CN107908624A	公开（公告）日：	2018-04-13
发明（设计）人：	谢珺;邹雪君;杨云云;续欣莹	申请（专利权）人：	太原理工大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62
代理公司：	太原市科瑞达专利代理有限公司14101	代理人：	卢茂春
地址：	030024 山西***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于覆盖计算 medoids 文本方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于全覆盖粒计算的K-medoids文本聚类方法，其特征在于包括下述内容：

(1)对文本进行预处理，包括中文分词，去停用词；

(2)对文本进行特征提取，设置高频词与低频词阈值，滤除区分度不够的高频词和代表性不强的低频词，然后利用TF-IDF算法建立词向量空间模型；

(3)对文本进行聚类，首先利用Single-Pass对文本进行粗聚类，利用全覆盖粒计算理论的粒度重要性概念计算初始聚类中心候选集，然后基于密度算法和最大最小距离算法计算初始聚类中心，最后利用k-medoids算法进行文本聚类。

2.根据权利要求1所述的一种基于全覆盖粒计算的K-medoids文本聚类方法，其特征在于对文本进行特征提取中的滤除区分度不够的高频词和代表性不强的低频词，具体操作包括以下步骤：假设词j的频率为m，M₁为低频词频率，M₂为高频词频率，若M₁<m<M₂则保留该词，否则剔除，达到降维的目的。

3.根据权利要求1所述的一种基于全覆盖粒计算的K-medoids文本聚类方法，其特征在于对文本进行聚类中的single-pass粗聚类，包括以下步骤：

(1)从文档集n中输入第一篇文档d₁作为第一类中的中心，n为正整数；

(2)输入第二篇文档与第一篇文档做相似性处理，得到相似结果θ，若θ＞σ，则第二篇分到第一类中并重新计算中心，否则第二篇作为新的一类；

(3)输入第i篇文档，分别与已有类别中的中心文档做相似性处理，得到与d_i相似度最大的类别m且记录相似结果θ，若θ＞σ，则d_i分配到类别m中并重新计算中心，否则成为新的一类；

(4)重复第三步，直至最后一篇文档分配类别，即整个聚类过程结束。

4.根据权利要求1所述的一种基于全覆盖粒计算的K-medoids文本聚类方法，其特征在于对文本进行聚类中的全覆盖粒计算理论的粒度重要性概念，具体如下：

设是非空论域_U上的一个全覆盖，全覆盖P＝{C_j:j＝1,…,n}，定义粒G_x的中心、全覆盖粒C的中心、P的全覆盖粒度熵分别为：

center_C(x)＝∩{N_C(x)|x∈N_C(x),N_C(x)∈G_x}

center(C)＝{center_C(x)|x∈U}

I(P)=Σx&Element;U1|U|(1-|centerP(x)||U|)=1-1|U|2Σx&Element;U|centerP(x)|]]>

SigC-Ci(Ci)=I(C)-I(C-Ci)]]>

其中，|center_P(x)|表示center_P(x)的基数。

基于上述全覆盖粒计算模型的相关基础概念，定义全覆盖平均粒度重要性，设C＝{C_i:1,...,m}是非空论域U上的一个全覆盖，定义平均粒度重要性为:

Sig(C)&OverBar;=1mΣi=1mSigC-Ci(Ci).]]>

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于太原理工大学，未经太原理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711321280.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种语言处理方法及装置
下一篇：一种PDF文档内容原位置多语言翻译方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top