[发明专利]一种结合Doc2vec和卷积神经网络的情感分类方法有效
| 申请号: | 201610049581.7 | 申请日: | 2016-01-25 |
| 公开(公告)号: | CN105740349B | 公开(公告)日: | 2019-03-08 |
| 发明(设计)人: | 唐贤伦;周冲;周家林;刘庆;张娜;张毅;郭飞;刘想德 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F17/27;G06N3/08 |
| 代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
| 地址: | 400065 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 doc2vec 卷积 神经网络 情感 分类 方法 | ||
1.一种结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,包括以下步骤:
步骤1:从网上搜集情感文本语料集,标记类别,将文本里的数据表示成一个句子,并将情感文本语料分为训练集语料和测试集语料;
步骤2:从网上搜集情感词典,并采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对步骤1中的训练集语料和测试集语料进行分词处理,然后去除停用词;
步骤3:采用Doc2vec对步骤2中分词处理并去除停用词后的训练集语料和测试集语料训练出词向量模型并得到文本向量;
步骤4:将步骤3中的语料中的训练集语料的文本向量输入卷积神经网络CNN训练出情感分类模型;
步骤5:将步骤3中的测试集语料的文本向量输入卷积神经网络CNN,根据步骤4中已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。
2.根据权利要求1所述的结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,所述步骤1进行标记类别采用人工标记类别,将情感表现为积极情绪的文本标签设定为1,将情感表现为消极情绪的文本标签设定为2;并且去除文本的首尾空格。
3.根据权利要求1或2所述的结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,所述步骤2的情感词典分为正面情感词词典和负面情感词词典,分词处理包括分级构造分词词典,由核心词典和临时词典两部分构成分词词典集合;采用二级哈希结构存储构造核心词典,选取情感词典作为临时词典加载的语料,分词词典初步构成后,分词系统进入步骤3。
4.根据权利要求3所述的结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,对情感文本进行分词时,如果临时词典中有新统计的词,该词的词频加一,否则将该新词重新加入临时词典;累计词频后判断词频是否满足设定阈值,若满足则移到核心词典中,并在临时词典中清空该词条;统计记录学习情感文本的数量,若大于预定值,则清空临时词典;采用更新后的核心词典中的词条作为分词依据。
5.根据权利要求1所述的结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,步骤3使用Doc2vec中基于Hierarchical-Softmax算法的PV-DM模型,将步骤2中处理好的语料输入模型中,把每个长度可变段落和对应段落中的每个词分别映射成唯一的段落向量和唯一的词向量,将所有文本向量和所有对应的词向量累加或者连接起来,作为输出层Softmax的输入;构建目标函数,在训练过程中保持文本向量不变,使用随机梯度上升法进行词向量更新,在预测阶段保持已经更新好的词向量和输出层Softmax的参数不变,重新利用随机梯度上升法训练待预测的文本,得到最终的文本向量并将这些文本向量处理成可以使用CNN的数据格式。
6.根据权利要求5所述的结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,所述步骤4具体为:首先构建完整的6层CNN网络,分别为文本向量层,卷积层,子采样层,卷积层,子采样层和全连接的softmax层;然后将步骤3中的语料中的训练集的文本向量输入到已经搭建好的卷积神经网络CNN模型中进行训练,训练分为两个阶段:首先是向前传播阶段,将样本输入卷积神经网络CNN网络,计算相应的实际输出Op;然后是向后传播阶段,计算出实际输出Op与相应的理想输出Yp的误差,再按极小化误差的方法反向传播调整权矩阵;经过两个阶段的训练后即得到训练好的情感分类模型。
7.根据权利要求5所述的结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,所述步骤5具体为:将步骤3中的语料中的测试集的文本向量输入CNN,根据步骤4中已经训练好的模型进行情感类别分类,如果实际输出文本的标签等于1,判定该文本表现的是积极情绪,如果实际输出文本的标签不等于1,即标签等于2,判定该文本表现的是消极情绪,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算情感分类的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610049581.7/1.html,转载请声明来源钻瓜专利网。





