[发明专利]一种基于LDA主题模型来分析和预测网络舆情的方法在审
| 申请号: | 201610096775.2 | 申请日: | 2016-02-22 |
| 公开(公告)号: | CN105760499A | 公开(公告)日: | 2016-07-13 |
| 发明(设计)人: | 高峰;王茂帅;于文才;柳廷娜;甄教明 | 申请(专利权)人: | 浪潮软件股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 杜鹃花 |
| 地址: | 250101 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 lda 主题 模型 分析 预测 网络 舆情 方法 | ||
1.一种基于LDA主题模型来分析和预测网络舆情的方法,其特征在于基于时间信息的LDA主题模型,得到不同时间片上的训练结果,以实现网络舆情的动态分析和预测功能;步骤如下:
先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内,采用基于分布式云计算架构进行矩阵的分块并行计算,处理语料库;
然后依次地处理每个时间窗口上的文档集合,得到不同时间片上的训练结果,把前面语料库的训练结果作为后面语料库训练过程中的先验参数;
最后从训练结果中得到各LDA主题模型强度随时间的变化趋势,实现网络舆情的动态分析和预测功能。
2.根据权利要求1所述的一种基于LDA主题模型来分析和预测网络舆情的方法,其特征在于根据马尔科夫原理,随机状态中的各个状态st,与它的前一个状态st-1有直接关系,即:
P(st|s1,s2,s3,......,st-1)=P(st|st-1);
所述方法的具体步骤如下:
第一步:将获取的语料库按时间片分段D1,D2,D3,......,DT;
第二步:在语料库Dt上进行LDA建模,得到doc-topic矩阵θt,m与topic-word矩阵对θt,m的列取均值,得到向量αt;
第三步:根据语料库Dt的影响结果对语料库Dt+1进行LDA建模,取向量αt作为doc-topic矩阵θt+1,m生成过程中的先验参数;取中的每一个行向量βt,k作为topic-word矩阵生成过程中的先验参数;
重复第二步与第三步,直至对每个语料库Dt(1≤t≤T)都进行完LDA建模;
第四步:根据时间顺序,将根据语料库Dt建模得到的θt,m统计每种主题的出现频率,从而得到各个主题随时间的变化曲线。
3.根据权利要求1所述的一种基于LDA主题模型来分析和预测网络舆情的方法,其特征在于对外提供可控的API服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司,未经浪潮软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610096775.2/1.html,转载请声明来源钻瓜专利网。





