[发明专利]基于上下文-情感词向量的文本情感分析系统有效
申请号: | 201910207069.4 | 申请日: | 2019-03-19 |
公开(公告)号: | CN109933795B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 金悦媛;饶若楠 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/289;G06N3/0442;G06F18/241;G06N3/045;G06N3/0464 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 上下文 情感 向量 文本 分析 系统 | ||
1.一种基于上下文-情感词向量的文本情感分析系统,其特征在于,包括:预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元,其中:预处理单元通过概率上下文无关文解析方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词,并通过字符词典对组成每个单词的字符的转换成字符对应的索引号;词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型,根据组成单词的字符的索引号,通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量;预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型,根据上下文无关词向量得到BiLSTM神经元的隐状态,即上下文词向量;情感细化单元通过情感词典调整上下文无关词向量得到情感词向量,并将预训练单元的上下文词向量和情感词向量组合得到上下文-情感词向量;情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型,并根据上下文-情感词向量得到句子的情感分类结果;
所述的情感词典中每一行存储单词及其对应的情感值和激励值,其中情感值的取值范围在1-9之间,值越大表示越积极;
所述的情感词向量是指:通过情感词典的分数值调整上下文无关词向量,使其与情感值相近的单词的词向量更相似,而远离情感值相反的单词的词向量;
所述的词向量单元包括:字符嵌入模块和字符CNN模块,其中:字符嵌入模块利用字符嵌入矩阵Q处理字符ID,输出单词字符嵌入表示,字符CNN模块与字符嵌入相连并输出单词的上下文无关词向量;
所述的词向量单元采用CNN-BIG-LSTM模型得到每个单词的上下文无关词向量:当句子s=[v1,...vi...,vm]的每个单词vi,i=1,...,m经过预处理单元处理得到的字符ID表示,k表示vi的字符个数,字符嵌入模块中有字符嵌入矩阵Q,当每个字符的嵌入表示维度等于d,那么|O|为字符字典的大小,则对于给定单词vi,通过查看Q得到vi的字符嵌入表示为第i行表示第i个字符的嵌入表示;
所述的预训练单元包括:前向LSTM模块、后向LSTM模块和softmax模块,其中:前向LSTM模块处理上下文无关词向量输出前向隐状态,后向LSTM模块处理上下文无关词向量输出后向隐状态,softmax模块与前向LSTM模块和后向LSTM模块相连输出单词的概率分布;
所述的预训练单元依次进行通用语料预训练和获取目标语料上下文词向量,具体包括:
①将通用语料经过词向量单元得到的上下文无关词向量E输入两层BiLSTM结构的语言模型进行训练:当输入的文本s=[v1,...,vm]包含m个单词,前向语言模型计算给定前t-1个单词(v1,...,vt-1)的条件下,第t个单词vt的概率分布:p(vt|v1,...,vt-1);则文本s的概率为:
后向语言模型则是根据vt后面的单词来预测其概率分布:单词vi的上下文无关词向量为ei,将ei传递给biLSTM模型,则会在每个biLSTM层得到得到vi的隐状态表示和其中:j=1,2;是前向LSTM计算得到的单词vi的上文相关表示,是后向LSTM计算得到的vi的下文相关表示;vi的概率分布根据softmax函数计算得到:其中:Θs为模型参数;
②将目标语料经过词向量单元得到的上下文无关词向量E输入预训练单元中已训练好的biLSTM模型;对于从biLSTM模型中获得其上下文相关表示和然后连接成一个向量当j=0时,hi,0=ei;否则,然后预处理单元输出R={R1,...,Rm};
所述的情感细化单元包括:相似度计算模块和词向量细化模块,其中:相似度计算模块处理上下文无关词向量并选择与其最相似的k个词向量,词向量细化模块与相似度计算模块相连并输出细化后的词向量;
所述的情感细化具体是指:首先将情感词典的单词经过预处理后输入词向量单元,获得情感词典中每个单词对应的词向量,记为集合S;然后将目标语料经过词向量单元得到的上下文无关词向量E输入情感细化单元,若ei∈S,则计算ei与S中其他词的相似度并按降序排序;前k个相似度最高的单词组成集合Si;k为10,计算ei与s的情感值Valence的绝对值差,并按升序排序;调整ei词向量,得到e′i,使得e′i与其k个邻近单词的距离最小化,并且e′i与ei的距离最小化;即目标函数为:其中:dist(x,y)是计算x与y相似度的相似度函数,α与β是控制向量e′i移动的两个超参数,这里α,β均设置为0.1;令目标函数对ei求导结果等于0,得到情感词向量e′i,多次迭代直到收敛,若则e′i=ei;
所述的情感分类器单元包括:词向量组合模块、Tree-LSTM模块以及softmax模块,其中:词向量组合模块处理上下文词向量和情感词向量与Tree-LSTM模块相连并传输上下文-情感词向量,Tree-LSTM模块根据句法结构处理上下文-情感词向量与softmax模块相连并输出隐状态,softmax模块处理隐状态并输出句子的类别信息;
所述的情感分类具体是指:首先将预训练单元输出的上下文词向量Ri与情感词向量e′i连接在一起,得到:当j=3时,hi,3=ei;然后学习一个关于[Ri;e′i]的线性组合函数:上下文-情感词向量其中:Θz=[γ;sj],sj是经过softmax归一化的权重参数,表示上下文词向量和情感词向量分别占的比重,γ是一个缩放因子;然后将Zi输入到Tree-LSTM中,根据句法结构建Tree-LSTM模型,最上层LSTM输出的隐状态h经过softmax函数后计算得到句子的情感分类结果目标函数为负对数似然函数:其中:Ei表示文本E中第i个句子,yi表示第i个句子的情感标签,表示Tree-LSTM的预测分类结果,Θ=[Θz;Θtree-lstm;W]是情感分类器单元的参数,符号表示element-wise乘法,通过随机梯度下降优化模型直到参数收敛。
2.一种根据权利要求1所述系统的上下文-情感词向量和Tree-LSTM的文本情感分类方法,其特征在于,通过对语言模型进行通用语料预训练再用于对输入的句子进行处理得到上下文词向量,再用Standford-Parser解析句子得到句法结构分析树,然后对上下文无关词向量进行情感细化得到情感词向量,并学习权重对上下文词向量和情感词向量的线性组合,进而得到上下文-情感词向量以联合表示单词的语义和情感,再将上下文-情感词向量输入Tree-LSTM中,根据句法结构分析树组合单词得到句子的向量表示,最后通过softmax分类后得到输入的句子的情感分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910207069.4/1.html,转载请声明来源钻瓜专利网。