[发明专利]一种基于多特征融合加权的微博文本立场检测方法在审

专利信息
申请号: 202011078456.1 申请日: 2020-10-10
公开(公告)号: CN112214991A 公开(公告)日: 2021-01-12
发明(设计)人: 孙迎雪;高俊波;郭元昊 申请(专利权)人: 上海海事大学
主分类号: G06F40/216 分类号: G06F40/216;G06F40/242;G06F40/284;G06K9/62;G06F16/35
代理公司: 上海元好知识产权代理有限公司 31323 代理人: 徐雯琼;张妍
地址: 201306 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 特征 融合 加权 文本 立场 检测 方法
【说明书】:

发明公开了一种基于多特征融合加权的微博文本立场检测方法,包含:S1、根据指定话题采集相应话题下的所有评论文本,将所有评论文本汇聚于数据集中;S2、对步骤S1中的数据集中的评论文本进行预处理操作;S3、计算步骤S2中所得的每个评论文本的词语的重要性standard(x),提取每个评论文本的特征词;S4、提取每个评论文本中的情感词,将所述情感词与步骤S3中的特征词共同作为原文本,对所述原文本进行词向量映射;S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向。其优点是:该方法通过考虑多个方面的属性特征计算词语的权重,筛选出具有更强意义的特征词,从而提高情感立场倾向检测的准确性,提高对大众舆情事件的响应速度。

技术领域

本发明涉及自然语言处理领域,具体涉及一种基于多特征融合加权的微博文本立场检测方法,以解决立场检测问题。

背景技术

近年来,互联网时代信息资讯丰富、交换方便快捷,微博作为一个热点话题开放平台,多元化趋势正在逐渐符合大众心理需求,人们通过社交平台参与评论、分享观点见解,从海量的微博话题评论中挖掘用户的观点和情感倾向,及时对大众反应态度进行立场检测,可以更好的了解到当前舆情的发展趋势。

立场检测任务是判断评论者对描述话题主体所表达的支持、反对或中立的态度。当前立场检测研究大多直接将话题与评论内容拼接起来,使评论内容有所归属,但是这种方法并未充分认识和利用话题词与评论特征词之间的联系,也造成了高频词对分类无意义的现象;同时立场检测研究数据集由用户评论构成,用户评论大多简短、形式随意,存在内容冗余、杂质较多的问题,在上述微博自动添加话题前缀的情况下,不仅忽略了特征词在不同类之间的分布情况,而且高估了高频词的作用并抑制了低频词的作用。在判断情感态度倾向时,传统扩充情感词典的方法对于模型提取主题词的能力并没有改善,计算词项携带信息量的各个方法考虑的是词项的绝对词频,计算类间区分度时受词频影响较高,当词项频繁出现在文档中时,即使类间区分度数值偏高但若词频过低,也很难使最终权重值有明显提升,特征词也会因此被漏筛。在深度学习研究领域多采用RNN等神经网络模型,因为语言有长期依赖关系,RNN模型不擅长捕捉和保留之前的所有信息,存在长期依赖的问题,神经网络各层参数多、随机初始化特点使这种网络特征提取模型具有不确定性,可解释性差,当针对数据不充分如小型数据集时,神经网络参数训练拟合不足,无法提取出有效特征进行工作,使分类结果准确性严重下降。

发明内容

本发明的目的在于提供一种基于多特征融合加权的微博文本立场检测方法,其为一种可以合理化词频影响、突出较高类别区分度特征词、可解释性好的基于多特征融合加权的微博文本立场检测方法,该方法通过考虑多个方面的属性特征计算词语的权重,筛选出具有更强意义的特征词,从而提高情感立场倾向检测的准确性,提高对大众舆情事件的响应速度。

为了达到上述目的,本发明通过以下技术方案实现:

一种基于多特征融合加权的微博文本立场检测方法,包含:

S1、根据指定话题采集相应话题下的所有评论文本,将所有评论文本汇聚于数据集中;

S2、对步骤S1中的数据集中的评论文本进行预处理操作;

S3、计算步骤S2中所得的每个评论文本的词语的重要性standard(x),提取每个评论文本的特征词;

S4、提取每个评论文本中的情感词,将所述情感词与步骤S3中的特征词共同作为原文本,对所述原文本进行词向量映射;

S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向。

可选的,所述步骤S3中,根据词语权重公式计算每个评论文本的词语的重要性standard(x)。

可选的,所述步骤S3中的词语权重公式的构造方式包含:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011078456.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top