[发明专利]一种基于卷积神经网络的文本情感分类方法在审
申请号: | 201710332453.8 | 申请日: | 2017-05-12 |
公开(公告)号: | CN107038480A | 公开(公告)日: | 2017-08-11 |
发明(设计)人: | 周武能;於雯 | 申请(专利权)人: | 东华大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F17/27;G06K9/62 |
代理公司: | 上海泰能知识产权代理事务所31233 | 代理人: | 宋缨,钱文斌 |
地址: | 201620 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 文本 情感 分类 方法 | ||
1.一种基于卷积神经网络的文本情感分类方法,其特征在于,包括以下步骤:
(1)搜集文本语料集,将文本里的数据表示成一个句子;
(2)对搜集的文本语料集进行预处理,并将情感文本语料分为训练集语料和测试集语料;
(3)对预处理后的文本预料集用word2vec工具训练出词向量模型并得到文本向量;
(4)将训练集语料的文本向量输入卷积神经网络训练出情感分类模型;
(5)将测试集语料的文本向量输入卷积神经网络,并用已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。
2.根据权利要求1所述的基于卷积神经网络的文本情感分类方法,其特征在于,所述步骤(2)中预处理的方式为去除文本语料集中的无关信息,随机选取文本语料集的80%作为训练集语料,20%作为测试集语料。
3.根据权利要求2所述的基于卷积神经网络的文本情感分类方法,其特征在于,所述无关信息包括标点符号、多余空格、重复无用的单字和特殊字符。
4.根据权利要求1所述的基于卷积神经网络的文本情感分类方法,其特征在于,所述步骤(3)中用word2vec工具训练时,出现次数超过五次的字会被加入字典中,对于没有出现在字典中的字符的词向量会被随机初始化。
5.根据权利要求1所述的基于卷积神经网络的文本情感分类方法,其特征在于,所述步骤(4)中包括以下子步骤:
(41)词向量的串接:在包含N个以字为基本单位{r1,r2,...,rN}的句子x中,卷积层对每个大小为k的连续窗口进行矩阵向量操作,假定向量Zn∈Rdk是以句子中第n个基本单位为中心的前后各(k-1)/2个基本单位的词向量的串接,其中d为句子中基本单位向量化表示后向量的长度,则向量Zn=(rn-(k-1)/2…rn+(k-1)/2)T;
(42)句子的特征向量表示:卷积层计算句子特征向量rsent∈R的第i个元素的过程如下:其中,W∈Rdk是卷积层的权重矩阵,b为偏移量,max[]为取最大值函数;
(43)计算情感标签得分:表示句子x的全局特征的向量被传递给包含两个全连接层的神经网络处理,计算句子属于每个情感标签τ∈T的得分其中,矩阵矩阵向量向量b3∈R|T|是模型需要学习的参数,激活函数h()使用正切函数,隐藏层单元数目hlu为用户指定的超参数,dlu为卷积单元和句子级的特征向量大小相关,T为情感标签即表示积极或消极;
(44)得到情感标签:给定一个句子x,参数集合为θ的模型对每个情感标签τ∈T计算一个得分Sθ(x)τ,为了将这些得分转换为给定句子的情感标签和模型参数集θ的条件概率分布,将所有情感标签τ∈T的得分进行Softmax操作:其中,P()为条件概率,对上式取对数得到使用随机梯度下降算法最小化负似然函数其中,x表示训练语料集D的一条句子,y表示该句子的情感标签包括积极和消极两种。
6.根据权利要求5所述的基于卷积神经网络的文本情感分类方法,其特征在于,所述步骤(42)中用权重矩阵计算给定句子中每个基本单位字的窗口大小为k的局部信息,对句子中所有基本单位的窗口取最大值,就抽取了一个在窗口大小为k的条件下长度为clu的句子特征向量,卷积窗口的大小不同,获取的局部信息也不同;利用并行的多个卷积层,学习不同N—gram的信息;每个卷积层经过最大值化都会生成一个固定长度的句子特征向量,将所有卷积层生成的句子特征向量进行串接,得到一个新的句子特征向量。
7.根据权利要求5所述的基于卷积神经网络的文本情感分类方法,其特征在于,所述步骤(43)中在卷积层之后,加入了线性整流器ReLU层,将线性整流器ReLU作为激活函数,通过加入线性整流器ReLU层加速随机梯度下降的收敛速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710332453.8/1.html,转载请声明来源钻瓜专利网。