[发明专利]一种基于主题模型的舆情新闻事件跟踪方法有效

专利信息
申请号: 202010141439.1 申请日: 2020-03-04
公开(公告)号: CN112115327B 公开(公告)日: 2023-10-20
发明(设计)人: 马子娟;岳昆;段亮;吴鑫然;李维华;赵天资 申请(专利权)人: 云南大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9535;G06F40/289;G06F40/242;G06F40/216;G06Q50/00
代理公司: 云南凌云律师事务所 53207 代理人: 董建国
地址: 650500 云南省昆明市*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 模型 舆情 新闻 事件 跟踪 方法
【权利要求书】:

1.一种舆情新闻事件跟踪方法,其特征在于执行过程分为以下4个步骤:

(1)舆情新闻数据在线获取与预处理:首先选取需要进行跟踪的舆情新闻事件,然后持续地从社交网络和新闻网页上爬取该事件的新闻数据,将在线获取的数据进行预处理,去除停用词并进行分词;

(2)构建MBTM(Minority Biterm Topic Model)并推断舆情新闻事件隐含主题:定义舆情新闻数据词典,提取二元组,给定参数构建MBTM,利用该模型对预处理后的舆情新闻数据进行建模,并推断舆情新闻事件的隐含主题;

(3)舆情新闻事件主题演化轨迹跟踪:设置时间节点,在每个时间节点处对模型当前的主题-词分布进行采样,获取对应主题中的词项,通过观察不同时间节点对应词项的演变,得到特定舆情新闻事件主题的演化轨迹;

(4)基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析:计算相邻时间节点主题-词分布间的JS散度,衡量特定舆情新闻事件主题在特定时间段内是否发生演化;将舆情新闻事件的主题强度看作该事件主题在上一个时间节点到当前时间节点内被讨论的次数,计算主题在每个时间节点的强度,从而监控舆情新闻事件的发展情况。

2.根据权利要求1所述的方法,特征在于,所述步骤(2)进一步包括以下具体步骤:

2.1:定义舆情新闻数据词典

获取步骤1.2.2预处理后得到的文字内容,将其中包含的全部词项存储在舆情新闻数据词典中,记为中,词典即为新闻数据中出现的所有词项的集合,其中,S为词典中词项的总数,即词典的大小,词典中没有重复的词项,即;

2.2:提取舆情新闻数据中的二元组

将每条舆情新闻数据作为一个单独的上下文单元,其中任何两个不同的词项构成一个二元组,一个包含3个不同词项的上下文单元将生成3个二元组表示为

(2-1)

按照式2-1的规则提取每条舆情新闻数据文字内容中的二元组,得到二元组集合,其中,|B|为该集合中二元组的个数,bi为第i个二元组,,,,和为二元组bi中的两个词项;二元组的提取过程可以通过对I的一次扫描来完成;

2.3:构建MTBM

用舆情新闻数据词典W中的S个词项来表示K个主题,K为设定的主题总数,,zk为主题的指示变量,k为主题序号,θ为数据集的主题分布,为主题zk的主题-词分布,分别为整个数据集的主题分布和每个主题下的主题-词分布的先验参数MBTM按照以下生成过程构建:

2.3.1:从参数为α的狄利克雷分布中对所有新闻数据的主题分布θ进行随机采样,从而推断出概率分布中的隐含变量θ、得到具体的概率分布,即有,表示为

(2-2)

其中,αK维参数,,是Gamma函数,上述过程对应于图2中随机变量间的概率依赖关系;

2.3.2:对每个主题zk,基于参数为的狄利克雷分布对每个主题进行随机采样,得到主题-词分布,简称为词项分布,即有;

2.3.3:对二元组集合中的每个二元组b:基于参数θ的多项式分布,为每个二元组b随机采样一个主题z,即有z~Multinomial(θ),基于参数的多项式分布对词项w1(b)和w2(b)进行随机采样,即有w1(b), w2(b)~Multinomial();

2.4:通过MBTM推断舆情新闻事件的隐含主题

MBTM模型在步骤2.3模型生成过程的基础上,将主题分布θ和每个主题的词项分布通过求边际积分的收缩变分表示方法,从后验分布中去除,收缩变分表示的MBTM图模型如图3所示,只对隐含主题变量z进行推断,z服从于变分多项分布Multinomial,为该多项式分布的变分参数,舆情新闻事件隐含主题按如下步骤进行推断:

2.4.1:随机初始化NkNk,w,令时间步长t=1,对每个二元组b,更新变分参数,首先对于变分参数,使用变分推断中经常使用的坐标上升法,对变分后验分布的变分下限(Evidence Lower Bound, ELBO)进行最大化,该过程采用零阶近似方法,即在近似时只保留零阶泰勒展开,最终得到的近似更新公式为,从而克服变分期望项的较高计算代价带来的困难:

(2-3)

其中,NkNk,w为表示执行更新和恢复参数所需要的全部数据的统计量,当一个新的二元组b出现时,随机地更新统计量,从而迭代地更新变分参数直至收敛;\b表示统计量计数时要去掉当前二元组b

2.4.2:基于得到的变分参数,按照公式2-4和2-5估计NkNk,w

(2-4)

(2-5)

2.4.3:按照公式2-6定义Robbins-Monro序列,用来描述当时间步长t改变时,模型在新数据和历史数据之间的权衡,随着步长t的增加,对新数据变得不敏感,τκ是Robbins-Monro序列的超参数;

(2-6)

2.4.4:和分别是NkNk,w进行了一次平行坐标上升更新后的无偏估计,描述一个二元组是从二元组集合B中通过均匀分布被抽取出来的,平行坐标上升利用前一时刻的参数进行迭代更新,对剩余参数进行最大似然估计,动态计算局部最优解,以此逼近局部最优解,使用这种估计方法,重新按照公式2-7和2-8来更新NkNk,w,从而得到NkNk,w的更新规则:

(2-7)

(2-8)

2.4.5:更新时间步长t:在NkNk,w的每次更新操作后将时间步长t加1;

2.4.6:在对所有的二元组进行了更新操作后,由于全局参数θk和仅与充分统计量NkNk,w和模型参数有关,仅需要更新这些充分统计量,就可以进行全局参数的更新,从而推断出舆情新闻事件的隐含主题分布和主题-词分布,全局参数θk和的更新公式如下:

(2-9)

(2-10)

其中,符号“”表示成正比例,NkNk,w表示对整个二元组集合B更新后的样本充分统计量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010141439.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top