[发明专利]一种用于网络内容安全管理的中文文本聚类的方法无效

申请号：	201110350120.0	申请日：	2011-11-08
公开（公告）号：	CN102426598A	公开（公告）日：	2012-04-25
发明（设计）人：	杨更	申请（专利权）人：	军工思波信息科技产业有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南昌新天下专利商标代理有限公司 36115	代理人：	施秀瑾
地址：	330000 江西***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种全新的基于网络内容分析的文本聚类方法，通过基于密度的聚类思想来自动确定聚类数与聚类初始中心点，同时优化聚类数的收敛准则，降低聚类算法的复杂度，这样即可在整体样本库上确定聚类数与初始中心点，保证了聚类的全面性，避免了过多人为因素对聚类结果的影响，同时又能得到相对更高的聚类准度与效率。
搜索关键词：	一种用于网络内容安全管理中文文本方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于网络内容安全管理的中文文本聚类的方法，其特征在于：它包括以下步骤：（1）、将文档集D={d1,d2,…,dn}中的每一个文档di作为一个具有单个成员的簇类Ci={di},这些簇类构成D的聚类C={c1,c2,…,cn}；（2）、采用下述方式计算两两簇对之间的欧式距离，形成文本向量之间的距离矩阵，两个向量之间的距离采用欧式距离:其中X=(xi1,xi2,…,xip)和Y=(yi1,yi2,…,yip)是两个P维的文本向量；（3）、根据得到的距离矩阵，采用下述方式计算出所有簇对之间的平均距离，记为R，同时Φ=2*R，计算样本之间的平均距离n为样本总数，是n个点中取两个点的组合数，是数据对象之间的距离；（4）、对每个簇类Ci={di}为中心，以R为半径作球，落在球内的点的个数为密度，计算每个点的密度；（5）、根据每个点的样本密度进行排序，找到最大密度的簇类记为C1；（6）、以簇C1为第一个聚类中心点，找出满足距离大于Φ的点，即|C2-C1|>Φ记为第2个聚类中心点，找到第3个点|C3-C1|>Φ记为第3个聚类中心点，如此循环直到找完整个文档集D={d1,d2,…,dn}为止，依此找到第k个聚类中心点，这样即可确定k的数目以及中心点Z1，Z2，…，Zk；（7）、把得到的K以及K个聚类中心Z1，Z2，…，Zk作为K-means算法的初始中心，采用聚类k-means算法迭代，直到K个聚类中心不再发生变化为止，这样得到K个聚类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于军工思波信息科技产业有限公司，未经军工思波信息科技产业有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110350120.0/，转载请声明来源钻瓜专利网。

上一篇：一种利用电石渣碱渣制备高活性消石灰的装置及方法
下一篇：DOPO衍生物阻燃剂

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于网络内容安全管理的中文文本聚类的方法无效

专利文献下载