[发明专利]大型语料库上的快速文本聚类方法有效

专利信息
申请号: 201711290927.3 申请日: 2017-12-08
公开(公告)号: CN108228721B 公开(公告)日: 2021-06-04
发明(设计)人: 李林蔚;郭良琛;马会心;何震瀛;荆一楠;王晓阳 申请(专利权)人: 复旦大学
主分类号: G06F16/28 分类号: G06F16/28;G06F16/35
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;陆尤
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 大型 语料库 快速 文本 方法
【权利要求书】:

1.一种大型语料库上的快速文本聚类的方法,其特征在于,具体步骤如下:

(1)给定由大量文档组成的文本数据集D,首先为后续的连乘计算构建索引;

在索引中,第i个元素ai的值为建立了这样一类索引后,的值通过单次除法完成

(2)由用户给出超参数α,β以及聚类过程中的总分类数K,使用基于吉布斯采样的狄利克雷多项混合模型,对每个文档所属的类别编号进行推断,具体过程为:

(2.1)对于语料库中的任一文档为其随机分配一个类别编号zi

(2.2)对于所有文档进行遍历,并且根据语料库中其它文档的当前分类情况,根据狄利克雷后验分布公式,采样更新文档i所属的类别,其服从的分布为:

分布公式经简化后的结果如下:

(2.3)针对需要采样的分布p(x),选取更易采样且满足如下性质的提案分布q(x):若对于第i步以q(xi|xi-1)的转移概率构建的马尔可夫链,其转移足够多步之后各状态的概率分布收敛于p(x);

(2.4)采样获得初始样本x0~q(x);

(2.5)采样获得xcand~q(xcand|xi-1),计算接受概率为:

并以上述概率接受这个采样结果,即令xi为xcand,不接受,则令xi为xi-1

(2.6)重复步骤(2.5)至指定次数;

(2.7)返回当前的xi作为采样结果;

(2.8)重复步骤(2.2-2.7),直至收敛;

(2.9)以每一文档被分配的类别编号作为标准给出聚类结果;

公式中所用的符号及含义如下:

M表示语料库中的文档数目;

T表示词汇中不同单词的数目;

K表示聚类数目;

α,β表示狄利克雷分布的先验参数;

表示第i篇文档;

zi表示第i篇文档的聚类编号;

nkt表示第k个聚类中单词t的出现次数;

nk表示第k个聚类中单词的总个数;

Nit表示第i个文档中单词t的出现次数;

Ni表示第i个文档中单词的总个数;

mk表示第k个聚类中文档个数;

表示第k个聚类中的词汇分布;

θ表示语料库中所有聚类的分布。

2.根据权利要求1所述的方法,其特征在于,在采样过程中,对于形式为的计算,若在两轮迭代间只有少量f(nkw)的值发生变化,则仅针对nkw值发生变化的w进行计算。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711290927.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top