[发明专利]一种基于BTM和Single-pass的热点话题发现方法有效
申请号: | 201711210195.2 | 申请日: | 2017-11-28 |
公开(公告)号: | CN108197144B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 许国艳;夭荣朋;张网娟;平萍;朱帅;李敏佳 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 btm single pass 热点话题 发现 方法 | ||
1.一种基于BTM和Single-pass的热点话题发现方法,其特征在于,该方法采用MapReduce分布式并行化处理,包括MapReduce框架的Mapper阶段和Reducer阶段;
所述Mapper阶段具体包括:
(1)对输入的数据集D进行预处理;
(2)将所述预处理后的数据集D平均分到C个节点,每个所述节点包含定量词对,随机为所述词对分配一个主题;
(3)利用BTM主题模型进行主题建模,获得语料数据集的主题分布;
(4)在每个节点上采用VSM对结果进行向量化;
(5)在每个节点上采用改进的Single-pass算法进行聚类分析,得到局部话题;
所述聚类分析具体包括:
(51)将每个节点按一定规模分成n个数据片C1,C2,...,Cn,将所述数据片按顺序依次作为输入数据;每个所述数据片单独进行内部聚类,得到每个所述数据片的聚类结果;
(52)选择所述数据片C1作为第一个部分,对所述C1进行内部聚类,得到所述第一部分的聚类结果;
(53)对于所述数据片C2,...,Cn,在输入前对每个数据片单独进行内部聚类,得到每个所述数据片的聚类结果;
(54)将所述数据片C2得到的每个聚类中心,与已经存在的所述数据片C1的每个聚类中心进行相似度计算,记为sim(C2ci,C1ci),其中,所述,C1ci和C2ci分别表示所述数据片C1和C2中不同的词对;
(55)选择最大相似度值max=max(sim(C2ci,C1ci)),判断max是否大于阈值c,若所述max=max(sim(C2ci,C1ci))≥c,则将所述C2ci归到与其相似度值最大的类中;若max=max(sim(C2ci,C1ci))<c,则以所述C2ci为聚类中心重新新建一个话题;
(56)将所述数据片C1、C2的聚类结果进行整理得到新的聚类结果;
(57)循环步骤(54)、(55)和(56),直到所述数据集中所有数据都处理完毕,得到最终结果;
(6)输出所述局部话题;
所述Reducer阶段具体包括:
(1)输入所述每个节点上的初始化聚类结果;
(2)选取主节点的所述聚类结果作为初始的聚类中心;
(3)采用改进Single-pass算法将其余节点的聚类结果与所述主节点的聚类结果进行聚类操作,最终得出热点话题;
(4)输出所述热点话题。
2.根据权利要求1所述的基于BTM和Single-pass的热点话题发现方法,其特征在于,所述Mapper阶段的步骤(2)中,所述词对是指在对所述数据集进行预处理后,同时存在于一个相同所述数据片内,且任意、无序的两个相异的词。
3.根据权利要求1所述的基于BTM和Single-pass的热点话题发现方法,其特征在于,所述Mapper阶段的步骤(3)中,所述主题建模采用抽样方法为Gibbs抽样方法,抽样过程的迭代采用的是每个所述节点的所述词对元组集合获取主题矩阵,即对每个所述词对b=(wi,wj)∈BC,求其在所述BTM模型中主题k下的概率。
4.根据权利要求1所述的基于BTM和Single-pass的热点话题发现方法,其特征在于,所述内部聚类采用的是Single-pass算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711210195.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:GIS系统中专变用户信息识别方法和系统
- 下一篇:食物信息推送方法及装置