[发明专利]一种融合颜文字的多类别情感提取方法在审
申请号: | 202110412378.2 | 申请日: | 2021-04-16 |
公开(公告)号: | CN113191135A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 骆曦;刘晓晓 | 申请(专利权)人: | 北京联合大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/284;G06F40/44;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京驰纳智财知识产权代理事务所(普通合伙) 11367 | 代理人: | 蒋路帆 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 文字 类别 情感 提取 方法 | ||
1.一种融合颜文字的多类别情感提取方法,包括对文本集进行预处理,其特征在于,还包括以下步骤:
步骤1:将预处理完成的文本集放入Word2Vec中的Skip-Gram模型进行训练,将词的上下文关系嵌入到低维空间,得到所有词语对应的词向量;
步骤2:构建颜文字情感词典;
步骤3:计算文档中颜文字情感概率;
步骤4:计算文本情感概率;
步骤5:计算文档综合情感概率。
2.如权利要求1所述的融合颜文字的多类别情感提取方法,其特征在于,所述步骤2包括以下子步骤:
步骤21:根据Plutchik情感轮盘将情感分为四组对立情感,从训练完成的Skip-Gram模型中分别获取八个情感词语和颜文字词典中每个颜文字所对应的词向量;
步骤22:分别计算每个颜文字向量与八个情感词语向量之间的相似度即余弦距离s1,s2,...,s8,两个词向量X和Y间的余弦距离计算公式如下:
其中,X=(x1,x2,x3,…xD),Y=(y1,y2,y3,…yD),均包含D维特征,x为词语X的词向量表示,y为词语Y的词向量表示,D表示词向量的维数,i表示词向量的第i个分量;
步骤23:将所述余弦距离sim1,sim2,...,sim8进行归一化处理,P(w)i为颜文字w所对应的第i种情感分类概率,可由下式计算得出:
其中,simi表示该颜文字与第i种情感词之间的余弦距离,最终可使P(w)1+P(w)2+…+P(w)8=1;
步骤24:计算所有颜文字的情感概率并生成颜文字情感词典。
3.如权利要求2所述的融合颜文字的多类别情感提取方法,其特征在于,所述步骤3包括对于某一文档所有颜文字集合{w1,w2,...wm},通过查询颜文字情感字典,对各类情感概率求均值,作为该文档颜文字情感概率值:
其中,Si为该文档颜文字的第i种情感值,m为该文档包含颜文字的数量,j表示该文档中的第j个颜文字。
4.如权利要求3所述的融合颜文字的多类别情感提取方法,其特征在于,所述步骤4包括以下子步骤:
步骤41:进行词向量表示;
步骤42:输入双向LSTM网络;
步骤43:输入文本卷积神经网络;
步骤44:使用最大池化进行下采样处理,得到序列特征z={z1,z2,…,zq};
步骤45:输入softmax层。
5.如权利要求4所述的融合颜文字的多类别情感提取方法,其特征在于,所述步骤41包括使用Skip-Gram输出的词向量表示文本,得到文本的词向量序列t=[t1,t2,…,tn],其中ti表示文本中第i个词,n为最大可输入词语数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110412378.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:摄像机
- 下一篇:供热/冷系统虚拟储能能力计算方法、装置与电子设备