[发明专利]一种基于多模型融合的用户情感分析方法在审
申请号: | 202010068449.7 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111259651A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 赵德群;王昊 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/242;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 融合 用户 情感 分析 方法 | ||
本发明涉及了一种新的基于混合学习的情感分类模型。该发明在第一阶段,在整个数据集上使用改进的字典分类法来计算情感得分,直接标记得分极高或极低的数据;在第二阶段,剩下的采用基于情感词典和BI‑GRU融合模型来计算情感得分,两阶段的混合框架使得该方法在情感分类中得到了有效的应用。本发明经实验表明,单一模型对多种复杂语境下的情感分类效果不理想,且难度大、精度不高,采用多模型融合的方法可以高效改善单模型的误差偏好,从而提高分类效果。
技术领域
本发明涉及信息系统领域,特别涉及一种基于情感词典和深度学习相结合的用户情感分析方法。特别适用于社交网络发布的微博、朋友圈等文本情感分析。
背景技术
随着微博、微信等社交网络的兴起,网络不仅成为了人们获取信息的重要来源,同时也成为人们表达自己观点的平台。通过在微博等网络社区来评论热点事件、抒写影评观点、描述产品体验等,产生了大量带有情感倾向的文本信息,而通
过对这些文本信息进行情感分析,可以更好地理解用户行为,发现用户对产品的倾向性、对热点事件的关注程度等。随着信息规模的急剧增大,仅仅依靠人工进行处理已经无法完成这一任务,这就促进了自然语言处理领域的一个研究热点,即微博文本情感分析技术的发展。
发明内容
本发明的目的在于解决现有分析方法的难度大、精度不高,提供一种一种新的基于混合学习的微博情感分类方法。
本发明解决其技术问题所采用的技术方案为:
一种情感词典和Bi-GRU融合模型,由于基于情感词典的方法能够对情感倾向明显的文本集获得较高的准确度,因此在第一阶段利用该方法来确定得分极高或极低的文本的倾向。另一方面,基于深度学习的方法在情感倾向模糊的数据集上效果更好。因此,第二阶段采用了情感词典和深度学模型相结合的综合分类方法,端到端的学习,使人们从纷繁复杂的特征工程中解放出来,且这样训练的模型具有较好的可移植性。
一种情感词典和Bi-GRU融合模型方法,该方法包括以下步骤:
步骤1:先对文本进行预处理,使用python中的结巴分词,这个分词工具很好用,可以在分词的同时将词性也分析出来。
步骤2:利用停用词去掉一些没有意义的词语,将分词后的词向量通过情感词典进行训练,包括情感词,否定词,副词程度以及停用词。
步骤3:对情感词进行赋值,正面情感词分值为1,负面情感词分值为-1,中性词则为0程度副词也可以根据词典中所给出的不同程度基于不同等级的分值,否定词则全部置为-1。
步骤4:连句处理
微博文本通常由多个句子组成,这意味着文本的情感倾向受到多个句子的影响。在不同的位置出现的对立连词,导致不同句子之间情感倾向的焦点转移。
步骤5:综合处理
如果一个否定词和一个程度副词同时出现在一个情感词w周围,若整条博文有n个分句,一个分句还有m个情感词,则整条博文情感值SO(e)可以用公式计算情感词和短语的综合倾向。
其中,adv为程度副词值表中相应分值,neg为否定词分值,conj为关联词分值,sωi为情感词典中情感词的值。
步骤6:利用Word2vec词嵌入向量对微博文本进行表示。训练时,神经网络隐藏层神经元个数设为100-300之间,隐藏层神经元的个数即为词嵌入向量的维数;
步骤7:把文本通过Word2vec处理后作为序列化数据交给Bi-GRU神经网络处理,结合情感词典通过关联前后词来理解文本,而不是通过单个独立的词由于本文主要讨论分类题,所以只在输入的最后一个Bi-GRU单元输出类别分类。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010068449.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:绞龙式抽油杆扶正器打捞筒
- 下一篇:一种汽车发动机冷却检测系统及其控制方法