[发明专利]一种用于网络内容安全管理的中文文本聚类的方法无效
申请号: | 201110350120.0 | 申请日: | 2011-11-08 |
公开(公告)号: | CN102426598A | 公开(公告)日: | 2012-04-25 |
发明(设计)人: | 杨更 | 申请(专利权)人: | 军工思波信息科技产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南昌新天下专利商标代理有限公司 36115 | 代理人: | 施秀瑾 |
地址: | 330000 江西*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 网络 内容 安全管理 中文 文本 方法 | ||
技术领域
本发明涉及一种用于网络内容安全管理的中文文本聚类的方法。
背景技术
在网络内容安全管理应用领域重点包括文本分类、文本聚类技术研究,这两类技术的目的都是将大规模的文本数据对象分组形成多个类别。其中文本聚类作为一种无监督的机器学习方法,技术实现过程无需预设文档分类、类别手工标注等更多的人为因素参与,是针对海量文本信息进行有效组织、摘要和导航的主要技术解决手段,已经成为海量文本信息融合方向的重要研究专题,对于网络舆情信息监管、趋势研判等信息内容安全管理重要应用领域具有显著的技术支撑作用、实际应用价值。
传统的信息聚类方法,主要可分为平面划分法(partitioning method)、层次方法(hierarchical method )、基于密度的方法(density-based method )、基于网格的方法(grid-based method)和基于模型的方法(model-based method)共计五大类,下面就当前文本聚类的主要代表算法做说明,分析其优劣点,同时在此基础上提出改造后的算法。
平面划分法首先人为地给出一个初始的分组方法,以后通过反复迭代的方法改变分组,直到满足某种收敛准则为止,该算法迭代速度快,能有效地处理海量数据,但无法解决初始聚类中心的选取问题,聚类个数也无法精确确定。它不能发现任意形状的簇,其初始聚类中心的选取对聚类结果有很大的影响。
层次法对给定的数据集进行类似层次似的分解,直到满足某种收敛准则为止,该聚类方法较简单,但是它经常遇到合并或分裂点选择的困难,算法复杂度比较小,但是如果没有很好地选择合并和分裂点,则可能会导致低质量的聚类结果。并且该算法定需要检查和估算大量的对象或簇,不适合海量数据的聚类。
基于密度的方法就是只要一个区域中的点的密度打过某个阀值就把它加到与之相近的聚类中去,这样可以过滤“噪声”孤立点数据,发现任何形状的簇,但是它对用户定义的参数非常敏感,不同的eps(邻域) 和 MinPts(对象最小数目个数)将对聚类的最终结果产生很大的影响,以至于导致差别巨大的聚类结果。
基于网格的方法将数据空间划分成为有限个单元的网格结构,聚类操作都在这个网格结构(即量化的空间)上进行,处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关,它的聚类质量取决于网格结构最底层的粒度,如果粒度比较细,处理的代价会显著的增加,但如果最底层的粒度太粗将会降低文本聚类分析的质量。
基于模型的方法试图优化给定的数据和某数学模型之间的拟合,为每个簇假定一个模型,寻找数据对给定模型的最佳拟合,实践中,它收敛很快,但是可能达不到全局最优。对于某些给定形式的优化参数,收敛性可以保证。它的计算复杂度线性取决于d(输入特征数)、n(对象数)和 t(迭代次数)。
发明内容
本发明的目的是提供一种能保证聚类的全面性,避免过多人为因素对聚类结果的影响,同时又能得到相对更高的聚类准度与效率的用于网络内容安全管理的中文文本聚类的方法。
为了便于说明问题,先了解两个定义:
定义1:两个向量之间的距离采用欧式距离:
其中X=(xi1,xi2,…,xip)和Y=(yi1,yi2,…,yip)是两个P维的文本向量。
定义2:计算样本之间的平均距离
n为样本总数,是n个点中取两个点的组合数,是数据对象之间的距离。
本发明的一种用于网络内容安全管理的中文文本聚类的方法,具体步骤是:
1、将文档集D={d1,d2,…,dn}中的每一个文档di作为一个具有单个成员的簇类Ci={di},这些簇类构成D的聚类C={c1,c2,…,cn};
2、采用定义1的方式计算两两簇对之间的欧式距离,形成文本向量之间的距离矩阵;
3、根据得到的距离矩阵,采用定义2计算出所有簇对之间的平均距离,记为R,同时Φ=2*R;
4、对每个簇类Ci={di}为中心,以R为半径作球,落在球内的点的个数为密度,计算每个点的密度;
5、根据每个点的样本密度进行排序,找到最大密度的簇类记为C1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于军工思波信息科技产业有限公司,未经军工思波信息科技产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110350120.0/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法