[发明专利]一种标签共现的标签聚类方法在审

申请号：	201410457010.8	申请日：	2014-09-10
公开（公告）号：	CN104216993A	公开（公告）日：	2014-12-17
发明（设计）人：	李鹏;王娅丹;金瑜;刘宇;何亨	申请（专利权）人：	武汉科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	严彦
地址：	430081 ***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种标签方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种标签共现的标签聚类方法，其特征在于：包括首先进行以下定义，

一、定义一个标注矩阵，该矩阵U_nxm是n×m型矩阵，n为标签个数，m为资源个数，矩阵中的元素u_iq表示标签t_i标注资源r_q的频度，此处的i取值为1,2,…,n，q取值为1,2,…,m；

二、定义一个共同标注矩阵，该矩阵C_n×n是n×n型矩阵，n为标签个数，矩阵中的元素ci_j表示标签t_i和标签t_j共现频度，如下式，

cij=W(ti,tj)Σj=1nW(ti,tj)---(1)]]>

此处的i取值为1,2,…,n，j取值为1,2,…,n；其中，W(t_i,t_j)表示标签t_i和标签t_j共同出现的次数，当i＝j时，W(t_i,t_j)为标签t_i标注过的资源数；

三、定义一个标签重要度矩阵，该矩阵A_n×n是n×n型矩阵，n为标签个数，矩阵中的元素a_ij表示标签t_i在所有m个资源内的重要度，即

aij=cij×lg(n1+Γ(ti))---(2)]]>

此处的i取值为1,2,…,n，j取值为1,2,…,n；其中，Γ(t_i)表示在m个资源中，与标签t_i共同出现过的标签的个数；

四、定义一个相似度矩阵，该矩阵S_n×n是n×n型矩阵，n为标签个数，矩阵中的元素s_ij表示标签t_i和标签t_j的特征向量相似度，即

sij=n·ΣAi·Aj-ΣAi·ΣAjn·ΣA2i-(ΣAi)2·n·ΣAj2-(ΣAj)2---(3)]]>

其中，A_i、A_j表示标签重要度矩阵中的第i、j个行向量；

然后基于定义执行以下流程，

步骤1，输入聚类的类别数目K，标签个数n，标签集合T＝{t₁,t₂….t_n}，资源集合R，和标签标注资源的关系集合A；初始化当前处理标签序号i取值为1；转到步骤2；

步骤2，计算标注矩阵的元素u_iq，得到标签与资源之间的关联，进一步得到标签t_i和标签t_j共同出现的次数W(t_i,t_j)，转到步骤3；

步骤3，根据式(1)，计算表示共现频度的元素c_ij，转到步骤4；

步骤4，根据式(2)，计算表示重要度的元素a_ij，转到步骤5；

步骤5，得到标签t_i的特征向量A_i(a_i1,a_i2….a_in)，转到步骤6；

步骤6，令i＝i+1，判断t_i是否属于标签集合T，如果属于则返回步骤2，否则转到步骤7；

步骤7，选择K个标签作为初始的聚类中心，转到步骤8；

步骤8，初始定义变量newJ＝0，oldJ＝-1，转到步骤9；

步骤9，计算newJ-oldJ的绝对值，如果结果大于等于0.00001，.转到步骤10，否则转到步骤14；

步骤10，根据式(3)，计算每个标签与K个聚类中心分别的相似度s_ij，转到步骤11；

步骤11，根据计算出来的相似度，对每个标签分别判断与哪个聚类中心的相似度最大并将该标签划分到相应的类别中，转到步骤12；

步骤12，计算每个类别中所有标签特征向量的平均值，作为该类别新的聚类中心，转到步骤13；

步骤13，令oldJ＝newJ，计算新的准则函数值赋值给newJ，转到步骤9；

步骤14，输出n个标签的聚类结果，结束。

2.根据权利要求1所述标签共现的标签聚类方法，其特征在于：步骤13中，准则函数的计算式为n_j代表相应的类别中标签个数，d(A_j,Z_k)表示两个特征向量之间的偏差的平方，A_j为相应类别中的标签特征向量，Z_k为相应类的聚类中心。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉科技大学，未经武汉科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410457010.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载