[发明专利]一种基于主题模型的舆情新闻事件跟踪方法有效
| 申请号: | 202010141439.1 | 申请日: | 2020-03-04 |
| 公开(公告)号: | CN112115327B | 公开(公告)日: | 2023-10-20 |
| 发明(设计)人: | 马子娟;岳昆;段亮;吴鑫然;李维华;赵天资 | 申请(专利权)人: | 云南大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F40/289;G06F40/242;G06F40/216;G06Q50/00 |
| 代理公司: | 云南凌云律师事务所 53207 | 代理人: | 董建国 |
| 地址: | 650500 云南省昆明市*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 主题 模型 舆情 新闻 事件 跟踪 方法 | ||
1.一种舆情新闻事件跟踪方法,其特征在于执行过程分为以下4个步骤:
(1)舆情新闻数据在线获取与预处理:首先选取需要进行跟踪的舆情新闻事件,然后持续地从社交网络和新闻网页上爬取该事件的新闻数据,将在线获取的数据进行预处理,去除停用词并进行分词;
(2)构建MBTM(Minority Biterm Topic Model)并推断舆情新闻事件隐含主题:定义舆情新闻数据词典,提取二元组,给定参数构建MBTM,利用该模型对预处理后的舆情新闻数据进行建模,并推断舆情新闻事件的隐含主题;
(3)舆情新闻事件主题演化轨迹跟踪:设置时间节点,在每个时间节点处对模型当前的主题-词分布进行采样,获取对应主题中的词项,通过观察不同时间节点对应词项的演变,得到特定舆情新闻事件主题的演化轨迹;
(4)基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析:计算相邻时间节点主题-词分布间的JS散度,衡量特定舆情新闻事件主题在特定时间段内是否发生演化;将舆情新闻事件的主题强度看作该事件主题在上一个时间节点到当前时间节点内被讨论的次数,计算主题在每个时间节点的强度,从而监控舆情新闻事件的发展情况。
2.根据权利要求1所述的方法,特征在于,所述步骤(2)进一步包括以下具体步骤:
2.1:定义舆情新闻数据词典
获取步骤1.2.2预处理后得到的文字内容,将其中包含的全部词项存储在舆情新闻数据词典中,记为中,词典即为新闻数据中出现的所有词项的集合,其中,
2.2:提取舆情新闻数据中的二元组
将每条舆情新闻数据作为一个单独的上下文单元,其中任何两个不同的词项构成一个二元组,一个包含3个不同词项的上下文单元将生成3个二元组表示为
(2-1)
按照式2-1的规则提取每条舆情新闻数据文字内容中的二元组,得到二元组集合,其中,|
2.3:构建MTBM
用舆情新闻数据词典
2.3.1:从参数为
(2-2)
其中,
2.3.2:对每个主题
2.3.3:对二元组集合中的每个二元组
2.4:通过MBTM推断舆情新闻事件的隐含主题
MBTM模型在步骤2.3模型生成过程的基础上,将主题分布
2.4.1:随机初始化
(2-3)
其中,
2.4.2:基于得到的变分参数,按照公式2-4和2-5估计
(2-4)
(2-5)
2.4.3:按照公式2-6定义Robbins-Monro序列,用来描述当时间步长
(2-6)
2.4.4:和分别是
(2-7)
(2-8)
2.4.5:更新时间步长
2.4.6:在对所有的二元组进行了更新操作后,由于全局参数
(2-9)
(2-10)
其中,符号“”表示成正比例,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010141439.1/1.html,转载请声明来源钻瓜专利网。





