[发明专利]大型语料库上的快速文本聚类方法有效

申请号：	201711290927.3	申请日：	2017-12-08
公开（公告）号：	CN108228721B	公开（公告）日：	2021-06-04
发明（设计）人：	李林蔚;郭良琛;马会心;何震瀛;荆一楠;王晓阳	申请（专利权）人：	复旦大学
主分类号：	G06F16/28	分类号：	G06F16/28;G06F16/35
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;陆尤
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	大型语料库快速文本方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种大型语料库上的快速文本聚类的方法，其特征在于，具体步骤如下：

(1)给定由大量文档组成的文本数据集D，首先为后续的连乘计算构建索引；

在索引中，第i个元素a_i的值为建立了这样一类索引后，的值通过单次除法完成

(2)由用户给出超参数α,β以及聚类过程中的总分类数K，使用基于吉布斯采样的狄利克雷多项混合模型，对每个文档所属的类别编号进行推断，具体过程为：

(2.1)对于语料库中的任一文档为其随机分配一个类别编号z_i；

(2.2)对于所有文档进行遍历，并且根据语料库中其它文档的当前分类情况，根据狄利克雷后验分布公式，采样更新文档i所属的类别，其服从的分布为：

分布公式经简化后的结果如下：

(2.3)针对需要采样的分布p(x)，选取更易采样且满足如下性质的提案分布q(x)：若对于第i步以q(xⁱ|x^i-1)的转移概率构建的马尔可夫链，其转移足够多步之后各状态的概率分布收敛于p(x)；

(2.4)采样获得初始样本x⁰～q(x)；

(2.5)采样获得x^cand～q(x^cand|x^i-1)，计算接受概率为：

并以上述概率接受这个采样结果，即令xⁱ为x^cand，不接受，则令xⁱ为x^i-1；

(2.6)重复步骤(2.5)至指定次数；

(2.7)返回当前的xⁱ作为采样结果；

(2.8)重复步骤(2.2-2.7)，直至收敛；

(2.9)以每一文档被分配的类别编号作为标准给出聚类结果；

公式中所用的符号及含义如下：

M表示语料库中的文档数目；

T表示词汇中不同单词的数目；

K表示聚类数目；

α,β表示狄利克雷分布的先验参数；

表示第i篇文档；

z_i表示第i篇文档的聚类编号；

n_kt表示第k个聚类中单词t的出现次数；

n_k表示第k个聚类中单词的总个数；

N_it表示第i个文档中单词t的出现次数；

N_i表示第i个文档中单词的总个数；

m_k表示第k个聚类中文档个数；

表示第k个聚类中的词汇分布；

θ表示语料库中所有聚类的分布。

2.根据权利要求1所述的方法，其特征在于，在采样过程中，对于形式为的计算，若在两轮迭代间只有少量f(n_kw)的值发生变化，则仅针对n_kw值发生变化的w进行计算。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711290927.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载