[发明专利]一种基于动态增量式的概率图模型的舆情演化跟踪方法有效

专利信息
申请号: 201910137783.0 申请日: 2019-02-25
公开(公告)号: CN109871434B 公开(公告)日: 2019-12-10
发明(设计)人: 王慧;张紫婷;许志伟;刘利民;云静 申请(专利权)人: 内蒙古工业大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/335;G06F16/31;G06F17/27
代理公司: 61215 西安智大知识产权代理事务所 代理人: 段俊涛
地址: 010080 内蒙古自治区呼*** 国省代码: 内蒙;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 话题 概率图模型 动态增量 演化规律 舆情信息 预测 动态确定 后验概率 情况分析 社交网络 关联度 随机图 相似度 增量化 跟踪 纬度 复用 构建 管控 文档 分析 追踪 发现
【说明书】:

发明公开了一种基于动态增量式的概率图模型舆情演化跟踪方法,该方法构建增量化随机图模型,对大规模社交网络舆情话题进行高效分析,追踪其演化规律,并预测未来舆情变化。具体来说,基于每条舆情话题相关文档间基于相似度的关联度,动态确定下一时间片的舆情话题数,从而通过复用历史舆情信息的后验概率来预测下一时刻舆情变化情况。该方法通过结合历史舆情信息,形成时间纬度上的舆情演化情况分析方法,发现舆情话题的演化规律,以便预测未来舆情并进行管控。本方法可以更加精准地确定模型的舆情话题数,并能够更为准确、高效地分析舆情演化的过程。

技术领域

本发明属于大数据分析与应用技术领域,涉及舆情演化分析,特别涉及一种基于动态增量式的概率图模型的舆情演化跟踪方法。

背景技术

舆情是由各种社会群体构成的公众在一定的社会空间内,针对热点事件、特定议题和社会现象所持有的多种情绪、态度和意见交错的总和。舆情是围绕特定话题产生的,舆情的演化往往随着话题的发展而变化。借助数据分析的手段发现其话题的变化来预测未来舆情的发展变化,对其进行追踪分析,便于预防突发性事件的发生。

随着信息的迅猛增长,由于数据时刻都在更新,所以舆情不断发生演化,用机器学习分析文档数据时,不可能一次性获得所有数据。当数据进行每次更新时,如果重新学习,消耗大量时间的同时也会占用大量存储空间。因此,引入增量学习机制,在保留历史数据的基础上,利用了历史数据的演化结果,预测未来舆情的发展变化。在分析后续文本时,节省了运行时间,提高了机器学习效率。

如何快速得知舆情的演变情况是当前的研究热点,现有方法的问题是在利用概率图模型-LDA分析舆情演化过程中,每次都要重新学习,效率和练习性比较差,会消耗大量时间且话题发现有延时,无法及时将话题内容呈现给用户。并且LDA话题数个数的选择对文本数据的释义和话题识别的效果产生极大的影响。LDA模型需人工设置话题数,存在一定盲目性,如果仅靠训练模型不断调整话题数无疑会消耗大量时间,并且会影响话题发现的准确性及内容的可读性。

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种基于动态增量式的概率图模型的舆情演化跟踪方法。

为了实现上述目的,本发明采用的技术方案是:

一种基于动态增量式的概率图模型的舆情演化跟踪方法,包括:

步骤1,确定LDA话题数;

步骤2,基于确定的话题数,根据LDA模型,按照时间片T进行文本划分,文档集合D={(dn1,t1),(dn2,t2),…,(dni,ti),…,(dnn,tn)},dni表示ti时间片的n篇文档,基于历史时间T话题发现的基础上,推断T+1时间片的话题,完成话题演化分析,具体演化步骤如下:

步骤2.1,初始化LDA模型的各类参数,初始化时间片T的词语后验概率分布,即某个话题中包括的词语及对应词语概率值,初始化时间片T+1的文本分词结果;

步骤2.2,通过吉布斯采样方法,将文档中的每个词随机赋予话题编号;统计每个话题下出现词语的数量和文档下出现话题的数量;根据已知变量得到时间片T+1的文本-话题概率分布;

步骤2.3,将历史时间片T的词语的后验概率分布,乘以时间片T+1的文本-话题概率分布,计算时间片T+1的话题-词语概率分布;

步骤2.4,根据时间片T+1的话题-词语概率分布,将该分布中词语的权值(即由分布得到的概率值)与设定阈值ε进行比较,如果大于ε,则保留T+1时间的关键词及权值,如果小于ε,淘汰T+1时刻的结果,保留T时刻的结果,其中阈值ε为微博话题中的词语权值求和取平均。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910137783.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top