[发明专利]大型语料库上的快速文本聚类方法有效
申请号: | 201711290927.3 | 申请日: | 2017-12-08 |
公开(公告)号: | CN108228721B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 李林蔚;郭良琛;马会心;何震瀛;荆一楠;王晓阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/35 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大型 语料库 快速 文本 方法 | ||
本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。
技术领域
本发明属于关系数据库技术领域,具体涉及一种大型语料库上的快速文本聚类方法。
背景技术
文本聚类是数据挖掘中的一类常见问题,是对文本信息进行有效组织的重要手段,在自然语言处理等方面的研究中起重要作用。
由于文本数据仅由单词组成,与其它经过提取的特征数据相比,通常维度更高且更加稀疏,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。
然而狄利克雷多项混合模型所花费的时间与文档长度成正比,对于大型语料库而言,其中的文档往往较大,导致收敛速度不够理想,影响到了整体的数据处理效率。
发明内容
本发明的目的是对于大型语料库,提出一种快速对其进行文本聚类的方法,以便于后续的数据处理。
本发明提出大型语料库上的快速文本聚类的方法,具体步骤如下:
1、给定由大量文档组成的文本数据集D,首先为后续的连乘计算构建索引,参见图2所示。
在索引中,第i个元素ai的值为建立了这样一类索引后,的值就可以通过单次除法完成将计算的复杂度从O(n)降到了O(1)。
2、由用户给出超参数α,β以及聚类过程中的总分类数K,使用基于吉布斯采样的狄利克雷多项混合模型,对每个文档所属的类别编号进行推断,具体过程为:
2.1、对于语料库中的任一文档为其随机分配一个类别编号zi;
2.2、对于所有文档进行遍历,并且根据语料库中其它文档的当前分类情况,根据狄利克雷后验分布公式,采样更新文档i所属的类别,其服从的分布为:
分布公式推导过程如下:
公式中所用的符号及含义如下:
分布公式经推导简化后的结果如下:
借助索引进行优化后,对分母的计算复杂度降到O(1),分子的计算复杂度正比于文档中不重复的单词数;
2.3针对需要采样的分布p(x),选取更易采样且满足如下性质的提案分布q(x):若对于第i步以q(xi|xi-1)的转移概率构建的马尔可夫链,其转移足够多步之后各状态的概率分布收敛于p(x);
2.4采样获得初始样本x0~q(x);
2.5采样获得xcand~q(xcand|xi-1),计算接受概率为:
并以上述概率接受这个采样结果,即令xi为xcand,不接受,则令xi为xi-1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711290927.3/2.html,转载请声明来源钻瓜专利网。