[发明专利]一种基于模糊演化计算的文本聚类方法无效
| 申请号: | 201010144226.0 | 申请日: | 2010-04-12 |
| 公开(公告)号: | CN102214181A | 公开(公告)日: | 2011-10-12 |
| 发明(设计)人: | 宋威;梁久祯 | 申请(专利权)人: | 无锡科利德斯科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/12 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 214125 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 模糊 演化 计算 文本 方法 | ||
【技术领域】
本发明涉及文本聚类方法,特别是关于一种基于模糊演化计算的文本聚类的方法。
【背景技术】
随着网络的快速发展,越来越多的网络资源被传到服务器上供网民搜索下载,不同类型的文本信息被放到服务器的数据库中,大量的数据怎样才能被网民更好的利用,信息检索技术便很好地解决了这一问题。
图1为信息检索适应的环境示意图。请参照图1所示,其中计算机102通过局域网LAN与服务器104A互联,服务器104A又与服务器104B或其他服务器相连以得到从服务器104B到服务器104N的所有的网络资源,这样计算机102通过服务器104A便可获得所有与相连的服务器上的资源,网民在计算机102中便可通过信息检索来获取想要的数据资源。由于每台服务器均有很大数据量的文本资源,怎样能够有效快速地获得蕴藏在网络文本资源中大量的未知、有用的信息,正成为信息检索与数据挖掘的热点。
聚类是一种非监督的机器学习技术,它从大量的无序数据中发现与挖掘知识,而且不需要任何预定背景作为知识指导,能将数据有效地划分为K个类簇,方便用户在事先未浏览整个数据库的情况下,快速探知与掌握数据库中潜藏的知识与结构。它是解决知识获取和维护瓶颈等数据挖掘问题的有效途径。因此,在现代信息检索技术中准确、高效的聚类技术是迫切需要的。
目前聚类算法可广泛地分为分层聚类(Hierarchical Clustering)和划分聚类(Partitional Clustering)两类。由于海量数据的聚类问题具有非线性、不确定性、大时滞等复杂性质,普通的聚类算法难以满足现代信息检索技术提出的高要求。K-means是最常用的聚类算法之一,但是它往往收敛于局部最优,而且最终的聚类结果很大程度上取决于初始设置的聚类中心;图论算法(Graph TheoreticApproach)通过搜寻密度函数的梯谷来实现聚类,但是它通常依赖于评价函数对密度的梯度评估;分枝与边界算法(Branch and Bound Procedure)通过构造搜索树对整个聚类空间进行搜索,但是当数据库很大时时间复杂度很高,会导致 搜索效率低下。
为克服前述各种聚类算法的问题,提出了演化算法。演化算法是人工智能及社会、生物等交叉学科的热点,它根据数据本身的特征,进行无监督的启发式学习,并在学习过程中利用数据的相似性和差异性抽象出聚类的规律。演化计算虽然能很好地处理非线性、随机性等问题,但是利用演化计算进行聚类还有很多挑战的问题有待解决,其中,种群中个体的选择、交叉和变异概率的合理设置是演化计算理论与应用研究中亟待解决的问题之一。以往人们根据大量实验中总结的规律,对这些演化算子的概率分别设置一个固定的范围或是利用简单的数学函数模拟它们的变化规律,例如,利用轮盘赌选择法或期望值概率模型指导选择的过程,利用高斯概率模型指导变异的过程等。但是不同的初始种群会导致不同的后续种群,从而会要求不同的演化规则,然而,上述方法难以演化规则进行有效的控制。另一方面由于演化算子的可移植性不高,当数据库发生变化时,演化计算的参数便需要重新设置。
因此有必要提出一种改进的技术方案来克服上述问题。
【发明内容】
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
本发明的目的在于提供一种基于模糊演化计算的文本聚类方法,其可以通过非参数的模糊演化规则有效地对演化算子进行全局与局部控制,以保持种群的多样性与收敛性,使种群处于一个良好的状态,以得到聚类问题的最优解。
根据本发明的一方面,本发明提供一种基于模糊演化计算的文本聚类方法,其包括:
A、在搜索空间中对每个聚类的解决方案以染色体的形式进行编码,其中每条染色体由位于不同基因位的基因组成;
B、随机建立前述染色体的初始种群并计算种群中每一染色体的适应度;
C、对上述种群进行模糊演化计算,具体步骤如下:
C1、利用期望值模型选择初始种群中适应度高的染色体后,将适应度 高的染色体复制到后续种群中;
C2、计算初始种群中每条染色的交叉概率并通过随机数字生成器来确定每条染色体是否为需要交叉的染色体,之后将需要交叉的每两条染色体的相同基因位进行单点或多点交叉以形成新的染色体,并放入所述后续种群中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡科利德斯科技有限公司,未经无锡科利德斯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010144226.0/2.html,转载请声明来源钻瓜专利网。





