[发明专利]一种基于多模型融合的社交媒体语料情感分析方法在审

专利信息
申请号: 202010030785.2 申请日: 2020-01-13
公开(公告)号: CN111259141A 公开(公告)日: 2020-06-09
发明(设计)人: 徐爽爽 申请(专利权)人: 北京工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/55;G06K9/62;G06N3/04;G06N3/08;G06F16/951;G06F40/289
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模型 融合 社交 媒体 语料 情感 分析 方法
【说明书】:

发明公开了一种基于多模型融合的社交媒体语料情感分析方法,使用pyspide爬虫框架从社交媒体获取,并对爬虫获取的数据集进行处理,将数据集拆分为三类:只包含文本信息、只包含图像信息以及文本图像信息均包含,本发明利用跨媒体的方法进行语料处理,对于语料中的文本信息,使用SO‑PMI算法构建情感词典,分析逐点互信息积极性、中性和消极性。使用相似距离在单词之间替换PMI并构建新的公式;对于图像或者视频的语料,利用视觉文本联合建模方法去得到、解析图像的含义,从得出对于图像或者视频的含义。利用纯文本的分析结果和视觉得出的分析结果,进行加权融合得到最后的情感分析的结果。

技术领域

本发明属于情感分析领域,涉及一种基于多模型融合的社交媒体语料情感分析方法。

背景技术

近年来,大量的社交平台和软件涌现出来,如微博、微信、QQ等,这些社交平台极大地丰富了人们的生活。越来越多的人积极地与他人分享信息,在社交平台上表达他们的观点和感受,所以每个社交平台慢慢地就会出现大量的语料信息如:图像、文本、视频等。人们分析隐藏在这些信息中的情感可以有益于在线营销、危机公关、监控公众意见、违法行为和发现潜在抑郁症等轻生迹象等。情感分析是平台社交信息的一个趋势,即根据对用户的语料信息进行分类,可分为积极、消极和中性,三种情感倾向。在此之前,有各种方法对于图像或者文本的单一识别分析已经取得了很多成果。但是,单一特征的情感分析有很多局限性,例如用户量比较大的微博,Facebook,Twitter等社交平台,都支持图文同时发布的方法,而现今大部分方法不能全面分析用户在社交平台上发布多种语料而造成判断失误。对于社交平台的多种语料信息,提高情感分析的准确性和全面性,有待于提高。

本发明基于多模型融合的社交媒体语料情感分析方法,避免单一的特征对于情感分析的不足,针对图像和文本进行结合分析情感,从而更加准确、适用范围更广。通过双重语料对于社区媒体的信息进行语义分析,提高了情感分析的准确性和全面性。

发明内容

本发明的目的在于提出一种基于多模型融合的社交媒体语料情感分析方法。实验相关数据使用pyspide爬虫框架从社交媒体获取,并对爬虫获取的数据集进行处理,将数据集拆分为三类:只包含文本信息、只包含图像信息以及文本图像信息均包含,本发明着重处理文本图像信息均包含情况,其他两种情况的语料可作为本发明鲁棒性的验证。首先,对于语料中的信息进行识别,识别出的语料信息可分为三类:只包含文本信息、只包含图像信息以及文本图像信息均包含,不管语料信息是上述三类中的那一种,都以包含图文信息的语料进行处理,这样做的好处是不管用户语料是哪种情况都能够合理的进行情感分析,保证模型的鲁棒性。首先,对语料中的文本信息,使用SO-PMI算法(情感倾向点互信息算法)构建情感词典,分析语料的积极性、中性和消极性,但是SO-PMI算法不能够灵活使用中文单词和短语,所以使用相似距离在单词之间替换并构建新的情感词典。其次,对于图像(包含图片和视频的集合),使用视觉文本联合建模算法对图像进行含义的解析,从而得出图像的情感倾向。最后,使用文本语料分析结果和图像语料分析得出的结果,进行加权融合的到最后的情感分析结果。

为了实现上述目的,本发明采用的技术方案为一种基于多模型融合的社交媒体语料情感分析方法,该方法共包含以下步骤:

步骤1数据预处理:

使用的数据是从新浪微博等社交平台通过爬虫获取,并过滤广告等无关数据,只保留用带有用户主观性的博文数据,对过滤后的文本数据使用jieba分词器进行分词,分词后的数据存在很多无意义的数据,为提高后期模型训练的难度,所以使用停用词表,将其过滤,采用哈工大的停用词表,得到经过数据预处理后的文本;为方便对图片数据的处理,将图片数据采用归一化的方式处理为256像素*256像素的图片。

步骤2对文本语料进行SO-PMI模型训练:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010030785.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top