[发明专利]基于特征增强的短文本情感分类方法及系统有效
申请号: | 202110570246.2 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113326374B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 安俊秀;陈涛;靳宇倡;卢晓晓 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 王红霞 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 增强 文本 情感 分类 方法 系统 | ||
1.一种基于特征增强的短文本情感分类方法,其特征在于,包括以下步骤:
基于TextRank对短文本数据进行情感词提取得到情感词典;
获取实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;
对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;
基于所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;
对所述Word2vec词向量矩阵进行分类;
所述对所述情感词典进行加权矩阵运算,得到情感词加权矩阵的步骤具体包括:
将所述情感词典中的情感词进行TextRank模型训练,得到每个情感词在整个短文本数据中相应的权重,并将权重信息存在第一字典中;
查找所述训练文本词向量的词中是否包含第一字典中的词,如果有,则构建与所述训练文本词向量维度相同的权重向量;否则,构建与所述训练文本词向量维度相同的单位向量;
将权重向量与所述训练文本词向量整合形成含有情感词权重信息的文本词向量;
通过基于注意力机制的混合神经网络情感分类模型对所述Word2vec词向量矩阵进行分类,其具体步骤为:
输入短文本数据的所述Word2vec词向量矩阵;
采用单层卷积对所述Word2vec词向量矩阵进行局部特征提取;
采用了双向长短时记忆网络对所述短文本数据进行全局情感特征提取;
将提取得到的单层卷积局部特征与全局情感特征进行拼接得到拼接向量;
基于注意力机制给所述拼接向量分配不同的情感权重,对分配不同的情感权重后的所述拼接向量进行情感分类。
2.根据权利要求1所述的方法,其特征在于,基于TextRank算法对短文本数据进行情感词提取包括以下步骤:
对短文本数据分词处理;
对分词后的短文本数据进行数据预处理,然后挑选候选关键词构建候选情感词集合;
基于TextRank算法计算候选情感词集的候选关键词的权重;
基于词图构建分值公式,迭代运算可得到词图各个节点的权重,直到分值公式收敛完成情感词提取。
3.根据权利要求1所述的方法,其特征在于,所述权重向量为对角矩阵。
4.一种基于特征增强的短文本情感分类系统,其特征在于,包括:
情感词提取模块,用于接收短文本数据,并通过TextRank对所述短文本数据进行情感词提取得到情感词典;
Word2vec词向量模块,用于接收实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;
加权模块,与所述情感词提取模块、所述Word2vec词向量模块相连,用于对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;
加权Word2vec词向量模块,与所述加权模块、所述Word2vec词向量模块相连,用于根据所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;
分类模块,与所述加权Word2vec词向量模块相连,用于对所述Word2vec词向量矩阵进行分类;
所述加权模块还包括权重信息获取单元、权重向量单元,其中,
所述权重信息获取单元用于将所述情感词提取模块中情感词典的情感词进行TextRank模型训练,得到每个情感词在整个短文本数据中相应的权重,并将权重信息存在第一字典中;
所述权重向量单元与所述权重信息单元、Word2vec词向量模块相连,用于当所述训练文本词向量的词中是否包含第一字典中的词时,则构建与所述训练文本词向量维度相同的权重向量;否则,构建与所述训练文本词向量维度相同的单位向量;然后将权重向量与单位向量整合形成含有情感词权重信息的文本词向量;
所述分类模块还包括神经网络单元,用于构建基于注意力机制的混合神经网络情感分类模型,所述基于注意力机制的混合神经网络情感分类模型包括输入层、一维卷积层、Bi-Lstm层、向量拼接层、注意力层、情感分类输出层。
5.根据权利要求4所述的系统,其特征在于,所述权重向量为对角矩阵。
6.根据权利要求4所述的系统,其特征在于,所述输入层用于获取短文本数据得到向量表示矩阵;
所述一维卷积层与所述输入层相连,用于对所述向量表示矩阵进行局部特征提取;
所述Bi-Lstm层与所述输入层相连,用于对所述短文本数据进行全局情感特征提取;
所述向量拼接层与所述Bi-Lstm、所述一维卷积层相连,用于将单层卷积局部特征与全局情感特征进行拼接得到拼接向量;
所述注意力层与所述向量拼接层相连,用于给所述拼接向量分配不同的情感权重;
所述情感分类输出层对注意力层得到的分配不同的情感权重后的所述拼接向量进行情感分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110570246.2/1.html,转载请声明来源钻瓜专利网。