[发明专利]一种多特征融合的文本情感分析模型及装置有效
申请号: | 202110630740.3 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113204624B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 包铁;刘露;刘圣洁;张雪松;彭涛 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/242;G06F40/279;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京华际知识产权代理有限公司 11676 | 代理人: | 曹书华 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 融合 文本 情感 分析 模型 装置 | ||
1.一种多特征融合的文本情感分析装置,其特征在于:包括登录模块、单输入预测模块和批量预测模块:
其中,
登录模块,用户需要登录系统;
单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;
批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,结果可以以柱状图显示数据占比,统计三种情感文本各有多少条,并提供下载功能;
该文本情感分析装置可以实现如下情感分析方法:包括如下步骤:
步骤一:首先,对微博文本进行分割,将文字部分和表情部分进行存储,对存储的文字部分进行文本预处理,结合情感词典、修饰词词典计算文本的情感值特征,对存储的文字部分通过改进的Word2vec模型训练得到文本词向量,构成改进的语义特征,对存储的表情部分结合表情符号情感极值表计算表情的情感极值,再加上表情的出现次数以及语义信息,共同构成表情特征,将三种特征进行融合,进行文本情感分析;
步骤二:建立TextCNN深度学习模型,在CNN基础上做出调整,使得TextCNN模型更适用于提取文本的特征,在情感分析中常被使用,本步骤将它作为核心模型,提出了基于多特征融合的情感分类模型MFCNN,将不同特征转化为对应向量,采用拼接方式进行特征融合,构建多特征向量矩阵,输入到文本卷积神经网络中,最终得到分类结果
(1)基于词典的情感值特征
1.1构建词典
本步骤构建的词典包括:基础情感词典,否定词词典和程度副词词典,采用了波森自然语言处理公司推出的BosonNLP情感词典作为基础情感词典,该词典由大量社交网站标注的文本构建,相较于传统的情感词典,BosonNLP情感词典包含了许多流行网络用语,更适用于对微博这种社交媒体的非正式文本进行情感分析;
本步骤的修饰词词典包括两种,分别是否定词词典和程度副词词典,若情感词前出现否定词,那么其情感倾向很可能相反,本步骤以汉语词典中的否定词为基础,结合微博文本中常用否定词进一步扩展,整理得到71个否定词构成否定词词典,否定词权重设为-1;程度副词词典参考知网提供的词典以及微博文本中部分程度副词作为补充,共筛选出219个程度副词组成的程度副词词典,并为每个程度副词赋予了权值,权值大于1表示情感加强,权值小于1表示情感弱化;
1.2构建情感值特征
基于词典的情感值特征是指依据情感词典及修饰词词典,构建特定的规则,匹配文本中包含的情感词和修饰词后进行加权计算,得到情感值特征作为文本情感的表示形式;
输入微博文本,输出文本基于词典的情感值特征,首先,读取微博文本并进行预处理,匹配情感词典与文本中的词语,若词语为积极词得1分,为消极词得-1分,两种情况都不是为0分,情感词前如果有修饰词,记录其数量及权值,计算文本的情感值,公式如下:
其中,m为文本中包含的情感词总数,n为某个情感词的修饰词个数,base为基础得分,weight为程度副词或否定词权值;
(2)表情特征
情感词与表情符号都是常见的含有情感线索的载体,虽然情感词也具有情感信息,但仅仅通过制定规则来计算几个词语的情感得分是远远不够的,与情感词相比,表情符号使用图形表示,具有更丰富且直观的情感信息,同时它所表达的情感往往更强烈,当表情符号出现在文本中时,其更可能主导文本信息的情感,本步骤基于表情符号的多维信息构建表情特征,包括表情符号的情感极值、出现次数及语义信息;
首先是表情符号的情感极值,本步骤根据自建数据集中常用的微博表情符号,选择了85个表情构建了表情符号情感极值表;将表情分为积极、中性、消极3种类型,其中,积极情感表情符号37个,消极情感表情符号43个,对于有歧义或者没有明显情绪表达的表情符号,设为中立情感,共5个,不同表情符号表达的情感不同,按照表达情感的正负及强弱给与-2到2的分值,表达积极情感的表情由弱到强取值范围为0至2,表达消极情感的表情由弱到强取值范围为0至-2,表达中性情感的表情赋值0;
提取文本中的表情符号,计算文本情感极值公式如下:
其中m,n为文本中积极表情符号与消极表情符号的数量,e为表情符号,pos,neg为积极与消极表情符号极值表,函数F的作用是取出极值表中相应表情符号的分值;
其次是表情符号出现的次数,便于直观了解微博文本中表情出现次数和文本情感倾向性的联系,引入累积分布函数CDF(Cumulative Distribution Function,CDF),定义公式如下:
F_X(x)=P(X≤x)
最后是表情符号的语义信息,在构建数据集时,表情符号转化为“[表情词]”形式,将表情词经过Word2vec模型进行词向量化,将该词向量作为对于表情符号的语义信息,计入表情特征;
表情符号可以直接体现用户在微博文本中想表达的情感,所以将表情符号加入到情感分析的对象中,增加了可参考的依据,能够有效提高情感分类的准确率;
(3)改进的语义特征
将文本词向量作为文本的语义特征,因为其含有词语的语义信息,所以将其作为文本的语义特征,通过Word2vec模型将文本转化为词向量,缓解了矩阵稀疏、维数过大的问题,保留了文本中词语的序列信息,不过遗漏了不同词语对文本重要性不同,而TF-IDF算法恰好解决了这个问题,所以将TF-IDF与Word2vec结合,由该模型训练得到的文本词向量,称为文本改进的语义特征;它结合了两者优点,既保留了文本中词语的序列信息,又赋予了文本中不同词语不同的权值;
假设一条文本d_i,分词后词语个数为M,词向量维度为N,该条文本表示为:
d_i=w_1,w_2,…,w_M
通过Word2vec模型生成词向量,文本中包含多个词语,每个词语都有其对应的词向量,将他们进行拼接,得到该条文本M×N维的向量矩阵G(d_i),再与其权值矩阵相乘就是改进后的Word2vec得到的向量矩阵W_G(d_i),表示公式如下所示
G(d_i)={W2v(w_1),W2v(w_2),…,W2v(w_M)}
W_G(d_i)={weight(w_1)W2v(w_1),…,weight(w_M)W2v(w_M)}
其中,G(d_i)表示向量矩阵中每个向量,W2v(w_i),就是文本中词语w_i的词向量,通过Word2vec模型训练而得;W_G(d_i)表示向量矩阵中每个向量,weight(w_i)W2v(w_i),其中,weight(w_i)是词语w_i由TF-TDF算法算出的权重值;将weight(w_i)与W2v(w_i)相乘就是改进后Word2vec的词向量,将文本中各词语词向量组成的文本向量矩阵W_G(d_i),作为本步骤改进后的语义特征;
步骤三:构建KCNN-BiLSTM-ATT模型,该模型利用了TextCNN提取文本的局部语义信息以及双向LSTM从前后两个方向学习序列特征的优势,将两种神经网络结合,提取文本特征更为丰富,此外,该模型在TextCNN卷积层中使用多规模卷积核替代单规模卷积核,提取多维度局部特征;在TextCNN池化层选用k-max pooling代替最大池化,因为最大池化对每条文本仅保留一个最强特征信息,而在自然语言处理中,特征的频次和位置同样重要,所以池化层选用k-max pooling,在一定程度上保留了特征的频率和部分位置信息
(1)卷积层
在本步骤构建的模型中,卷积层的目的是利用卷积核获取文本的局部特征,词向量矩阵作为输入,卷积层进行卷积操作,获得整个文本的最终特征图(feature map)作为下一层的输入;
(2)池化层
池化层的作用是保留显著特征以及降低特征维度,对卷积层输出的特征图进行池化操作,提取出某些局部最优特征,舍弃卷积层冗余的特征,对特征进行压缩从而降低了模型的复杂度以及后续计算量,避免产生过拟合;
(3)双向LSTM层
该模型采用的BiLSTM是长短期记忆神经网络的变体之一,与LSTM相比,BiLSTM不仅可以访问前向上下文信息,还可以访问后向上下文信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110630740.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吹风式干身干脚一体机
- 下一篇:一种电影评论情感分析模型及装置