[发明专利]一种基于LDA主题模型来分析和预测网络舆情的方法在审
| 申请号: | 201610096775.2 | 申请日: | 2016-02-22 | 
| 公开(公告)号: | CN105760499A | 公开(公告)日: | 2016-07-13 | 
| 发明(设计)人: | 高峰;王茂帅;于文才;柳廷娜;甄教明 | 申请(专利权)人: | 浪潮软件股份有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 | 
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 杜鹃花 | 
| 地址: | 250101 山东*** | 国省代码: | 山东;37 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 lda 主题 模型 分析 预测 网络 舆情 方法 | ||
技术领域
本发明涉及一种自然语言处理技术领域,具体地说是一种基于LDA主题模型来分析和预测网络舆情的方法。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
在信息爆炸时代,怎样从海量信息中挖掘出有效的主题信息,分析出内在的语义关联一直是自然语言处理方向的一个重要课题。
LDA(LatentDirichletAllocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA主题模型通过训练语料库,得到“文档—主题”信息和“主题—词语”信息。传统的训练方法没有利用文档的生成时间这一信息,从而训练出的模型不能反应出文档、主题、词语随时间的变化趋势。
网络舆情是指在一定的社会空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。
文档和时间是密切关系的,随着时间的发展,相关主题的内容会发生变化,主题的强度也会经历一个从高潮到低潮的过程。如何有效地组织这些大规模文档,并且按时间顺序来获取文本集合中话题的演化,从而帮助用户追踪感兴趣的主题,具有实际意义,也是目前需要解决的问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于LDA主题模型来分析和预测网络舆情的方法,来解决如何有效地组织这些大规模文档,并且按时间顺序来获取文本集合中话题的演化,从而帮助用户追踪感兴趣的主题的问题。
本发明解决其技术问题所采用的技术方案是:
一种基于LDA主题模型来分析和预测网络舆情的方法,基于时间信息的LDA主题模型,得到不同时间片上的训练结果,以实现网络舆情的动态分析和预测功能;步骤如下:
先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内,采用基于分布式云计算架构进行矩阵的分块并行计算,处理语料库;
然后依次地处理每个时间窗口上的文档集合,得到不同时间片上的训练结果,把前面语料库的训练结果作为后面语料库训练过程中的先验参数;
最后从训练结果中得到各LDA主题模型强度随时间的变化趋势,实现网络舆情的动态分析和预测功能。
语料库中的不同时间段内的文档是先后顺序有影响的,根据马尔科夫原理,随机状态中的各个状态st,只与它的前一个状态st-1有直接关系,即:
P(st|s1,s2,s3,......,st-1)=P(st|st-1);
所述方法的具体步骤如下:
第一步:将获取的语料库按时间片分段D1,D2,D3,......,DT;
第二步:在语料库Dt上进行LDA建模,得到doc-topic矩阵θt,m与topic-word矩阵对θt,m的列取均值,得到向量αt;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司,未经浪潮软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610096775.2/2.html,转载请声明来源钻瓜专利网。





