[发明专利]基于文本向量与机器学习的突发事件舆情演化分析方法在审

专利信息
申请号: 201811286513.8 申请日: 2018-10-31
公开(公告)号: CN109582785A 公开(公告)日: 2019-04-05
发明(设计)人: 杨宇杰;戴维迪;孙越恒 申请(专利权)人: 天津大学
主分类号: G06F16/35 分类号: G06F16/35;G06F17/27;G06K9/62
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李林娟
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 突发事件 机器学习 时间序列 文本向量 向量空间 短文本 二阶马尔科夫链 字符串匹配 分词处理 风险预测 决策依据 内容转化 情感分类 时间分片 文本文档 文本语义 向量表示 演化趋势 主题模型 词向量 相似度 分词 负向 微博 正向 加权 热度 算法 分析 协同 管理部门
【说明书】:

发明公开了一种基于文本向量与机器学习的突发事件舆情演化分析方法,包括:基于字符串匹配、以及二阶马尔科夫链,对文本文档进行分词处理;利用Word2Vec算法将分词后的短文本内容转化为向量空间中的向量表示,向量空间上的相似度用来表示文本语义的相似性;使用SVM和Word2Vec进行情感分类,SVM分类器的输入值为所有词向量的加权平均值;计算在时间序列上情感正向极性和负向极性的短文本数量,从而得到突发事件发生周期中情感的演化趋势;将时间分片后的数据作为主题模型的输入,进而得到在时间序列上该突发事件主题词的变化及热度。本发明揭示了突发事件的微博舆情主题与情感之间的协同规律,为突发事件的管理部门在舆情判断和风险预测方面提供科学合理的决策依据。

技术领域

本发明涉及数据挖掘、自然语言处理领域,尤其涉及基于机器学习的情感分析方法对突发事件网络舆情演化进行分析,对网民在突发事件下所表达的情感进行挖掘,涉及短文本情感极性划分和支持向量机(SVM)、主题模型(LDA)技术,是一种新型的基于情感分析的突发事件网络舆情演化分析方法。

背景技术

目前,传统的通过网络舆情评论数量观测值的变化来进行舆情研究,从而得出舆情发展态势的方法,虽然直接把事物在各个不同时刻的状态所对应的观测数据作为研究对象,通过分析和研究时间序列数据的特征从而建立时间序列模型,然后在所拟合模型的基础上发现并通过某种方式刻画事物的这种随时间发展而变化的规律。对时间序列的分析,研究者们积累了一些经典的方法,其中主要包括:模型法、指标法以及图表法。但是该方法仅反映了突发事件整体的发展走向,深层次及动态的规律却很难发现。

另外在突发事件传播的整个过程中,往往会出现不同的主题,而网民在不同主题下的情绪表达也会直接影响事件的传播速度和走向,针对微博的主题以及各主题对应的情绪进行挖掘可以帮助政府、企业等组织快速了解事件发生过程中的公众情绪走向及比例变化,对突发事件进行预测和调控。

所以在上述基础上,演化出基于主题分析的网络舆情演化分析方法,该方法多采用聚类基础上考察相关评论规模的方法,往往对网民评论的情感因素关注不足,而且通常是停留在热点话题发现的程度,没有进一步根据倾向性特性进行区分。近年来,虽然有学者对舆情的特性进行了深度分析的研究,给出了一些舆情关键点的定义,但是没有给出具体的数学模型,也没有提出可行的发现方案,发现方法多是手工采集整理。对网民的情绪进行细粒度的分析能够把握舆情在发生过程中的情绪比例变化和走向,对舆情的预测和调控具有重要的现实意义。

发明内容

本发明提供了一种基于文本向量与机器学习的突发事件舆情演化分析方法,本发明构建了融合主题与情感特征的微博舆情演化分析方法,揭示了突发事件的微博舆情主题与情感之间的协同规律,为突发事件的管理部门在舆情判断和风险预测方面提供科学合理的决策依据,详见下文描述:

一种基于文本向量与机器学习的突发事件舆情演化分析方法,所述方法包括以下步骤:

基于字符串匹配、以及二阶马尔科夫链,对文本文档进行分词处理;

利用Word2Vec算法将分词后的短文本内容转化为向量空间中的向量表示,向量空间上的相似度用来表示文本语义的相似性;

使用SVM和Word2Vec进行情感分类,SVM分类器的输入值为所有词向量的加权平均值;

计算在时间序列上情感正向极性和负向极性的短文本数量,从而得到突发事件发生周期中情感的演化趋势;

将时间分片后的数据作为主题模型的输入,进而得到在时间序列上该突发事件主题词的变化及热度。

其中,所述方法还包括:

确定对数据做时间分片的时间点,对于情绪正负极性突变的时间点作为对数据做时间分片的时间点,在该时间点上,针对突发事件民众的态度或情绪发生了明显的变化;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811286513.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top