[发明专利]一种基于多模型融合的用户情感分析方法在审
申请号: | 202010068449.7 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111259651A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 赵德群;王昊 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/242;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 融合 用户 情感 分析 方法 | ||
1.一种基于多模型融合的用户情感分析方法,其特征在于:
步骤1:先对文本进行预处理,使用python中的结巴分词在分词的同时将词性也分析出来;
步骤2:利用停用词去掉一些没有意义的词语,将分词后的词向量通过情感词典进行训练,包括情感词,否定词,副词程度以及停用词;
步骤3:对情感词进行赋值,正面情感词分值为1,负面情感词分值为-1,中性词则为0程度副词也可以根据词典中所给出的不同程度基于不同等级的分值,否定词则全部置为-1;
步骤4:连句处理
在不同的位置出现的对立连词,导致不同句子之间情感倾向的焦点转移;
步骤5:综合处理
如果一个否定词和一个程度副词同时出现在一个情感词w周围,若整条博文有n个分句,一个分句还有m个情感词,则整条博文情感值SO(e)用公式计算情感词和短语的综合倾向;
其中,adv为程度副词值表中相应分值,neg为否定词分值,conj为关联词分值,sωi为情感词典中情感词的值;
步骤6:利用Word2vec词嵌入向量对微博文本进行表示;训练时,神经网络隐藏层神经元个数设为100-300之间,隐藏层神经元的个数即为词嵌入向量的维数;
步骤7:把文本通过Word2vec处理后作为序列化数据交给Bi-GRU神经网络处理,结合情感词典通过关联前后词来理解文本,只在输入的最后一个Bi-GRU单元输出类别分类。
2.根据权利要求1所述的一种基于多模型融合的用户情感分析方法,其特征在于:
步骤6:利用Word2vec词嵌入向量对微博文本进行表示;训练时,神经网络隐藏层神经元个数设为100-300之间,隐藏层神经元的个数即为词嵌入向量的维数;得到词嵌入向量库后,对文本d进行分词和去停用词处理,得到文本的词序列W=[w1,…,wn],n为文本词语的总个数;根据Word2vec训练得到的词嵌入向量把词序列w替换成词嵌入向量矩阵,其中,为词wi的词嵌入向量,其表示如公式(8)所示:
其中i为此词序列中的情感词,其中k为词嵌入向量的维度,vk表示在该维度的向量表示;
模型中全连接层的激活函数采用softmax函数,将输出结果看作在微博情感类别上的概率分布;因此模型采用交叉摘损失函数:
其中,D为微博文档集合,p为文档集合中的文本,E为情感类别集合,q为情感类别集合中的情感类别,共分为3类即积极、消极、中性;优化目标是将所有数据中已知情感类别与预测情感类别的交叉摘最小化;y是真实情感类别,是模型预测情感类别。
3.根据权利要求1所述的一种基于多模型融合的用户情感分析方法,其特征在于:
步骤7:传统GRU只能按次序读取文本,考虑微博上下文信息,使用能够双向提取特征的BI-GRU模型;将序列信息按照前向和后向两个方向输入到模型中,并且这两个隐藏层都连接着输出层;
把文本通过word2vec处理后作为序列化数据交给GRU神经网络处理,结合情感词典通过关联前后词来理解文本;
该模型选取三层GRU的堆叠,三层GRU的输出维度分别设定为128,64,32,从而构建起基本的网络模型;实验在GRU的层级之间添加了Dropout层,在Dropout层中设置随机失活值为0.2;之后引入一个全连接层作为输出层,该层使用的非线性激活函数为sigmoid,预测0,1变量的概率;Bi-GRU通过每层GRU来不断捕捉语句间的信息,减少信息的丢失和依赖关系的消失。
4.根据权利要求1所述的一种基于多模型融合的用户情感分析方法,其特征在于:
通过交叉熵来测试模型,把交叉熵作为目标函数,交叉熵越小说明匹配的越准确,模型精度越高;使用RMSprop Optimizer来进行优化,将数据灌入模型,使用测试集作为验证数据,批次大小设置为100,迭代轮次设为5轮;针对文本的长度不一致问题,依据最长文本长度进行GRU神经网络的搭建,微博文本最大长度一般不超过300个字,不超过150个词语,所以构建最大长度为150个GRU单元,文本的特征序列从后向前输入,即最后一个特征放入最后一个GRU单元,倒数第二个特征放入倒数第二个GRU单元,依次类推,最后多余的GRU单元输入零向量,每完成一次反向传播算法,就是实现了一次参数矩阵的更新,多次迭代后素食函数就能达到全局最优解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010068449.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:绞龙式抽油杆扶正器打捞筒
- 下一篇:一种汽车发动机冷却检测系统及其控制方法