[发明专利]一种LDA并行优化方法在审

申请号：	201710237926.6	申请日：	2017-04-13
公开（公告）号：	CN107168944A	公开（公告）日：	2017-09-15
发明（设计）人：	王华扬;宋奎勇;何鸣;王红滨;王念滨;陈龙;王瑛琦;童鹏鹏;赵新杰;王昆明	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 lda 并行优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及的是一种LDA(Latent Dirichlet Allocation潜在狄里克雷分布)并行优化算法。

背景技术

在大数据时代下，随着互联网和信息技术的快速发展和广泛应用，产生了与人们生活息息相关的各种海量数据。其中在这些纷乱混杂的数据中，非结构化的文本信息占主要部分。面对如此巨大的文本数据，人们很难迅速地获取自身有用的信息。如何快速地处理和发掘这些数据信息成为当前面临的一大难题，这也促进了文本分类相关技术的深入研究广泛运用。文本分类是数据挖掘范围中十分重要和热门的技术，文本分类技术可以把数量巨大的非结构化文本数据采用计算机能理解的方法进行计算，从而帮助人们更好、快速地获取真正需要的信息，广泛应用在舆情分析、和个性化推荐等领域中。

在文本分类过程中，传统的特征提取的方法主要有文档词频、卡方、互信息、信息增益等。这些方法的一个共同特点是假设词与词之间是相互独立的，通过计算词项与类型之间存在的关系，对特征词进行筛选，从而达到降维的目的，这类方法忽视了词与词之间关系，不能挖掘词与词之间的语义关系。

LDA主题模型是近年来研究比较热门的方向，通过对文本集进行建模，自动分析每个文档，发掘出文中潜在的语义，将文本语料库从词空间维度映射到文本的主题空间维度上，得到文本的主题概率分布，同时能很好地解决传统方法无法解决的一词多义、和一义多词等问题。利用LDA模型良好的降维效果和文本表示能力进行文本表示，在得到的文本表示基础上构建分类器模型，进行文本的分类识别任务。

传统的AD-LDA(approximate distribution LDA)模型，这是一个基于吉布斯采样的近似分布同步框架LDA并行算法。其核心思想是先将文档均匀分布到每台处理器上，假设文档集总共有N篇文档，按文档数均匀分配到每个处理器上，假设共有P台处理器，这样每台处理器大约包含有N/P篇文档，分割后的每个小数据集用X_i表示，其中i∈N。这样就可以在每台处理器上对分割后的数据集X_i分别进行一次Gibbs采样。在Gibbs采样之前，需要对模型中的计数赋初值，其中n_m^(k)表示文档m中归入主题k的次数，n_k^(t)表示词归入主题k的次数，n_m表示文档m中全部的词个数，n_k表示文档集中归入主题k的总次数。在模型的并行过程中，需要在每次迭代后，同步更新模型的参数，即词-主题矩阵N_wk。在每台处理器的采样结束后，将每个子数据集对应的局部参数N_wkp传输到主节点进行一次合并，得到一组新的计数，然后再将汇总后得到的全局参数分发到各个处理器上，最后再进行下一次迭代，直到模型收敛或达到模型设定的最大迭代次数。传统的AD-LDA具体包括：

输入：文档集X，迭代次数T，处理器数P，模型超参数α和β。

输出：文档-主题分布θ_m,k和主题-词分布

1：将文档集X均匀分配到P台处理器上；

2：对模型参数赋初值，将文档中的每一个词随机赋予一个主题编号k；

3：设置模型迭代次数，在模型每次迭代过程中

4：对于每台处理器分别执行下述步骤

5：将全局参数N_wk广播给每台处理器局部参数N_wkp：N_wkp←N_wk；

6：使用吉布斯采样公式更新本地相关统计计数n_m^(k)，n_k^(t)，n_m，n_k；

7：循环结束；

8：等待所有处理器达到同步；

9：更新全局参数N_wk←N_wk+∑_p(N_wkp-N_wk)；

10：直至达到终止条件，输出模型参数θ_m,k和