[发明专利]基于卷积神经网络的跨领域情感分析的模型训练方法有效
| 申请号: | 201910020227.5 | 申请日: | 2019-01-09 |
| 公开(公告)号: | CN109753566B | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 孟佳娜;于玉海 | 申请(专利权)人: | 大连民族大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06K9/62 |
| 代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 刘斌 |
| 地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 卷积 神经网络 领域 情感 分析 模型 训练 方法 | ||
1.一种基于卷积神经网络的跨领域情感分析的模型训练方法,其特征在于,包括如下步骤:
S1.文本预处理;
S2.训练词向量模型:
所述步骤S2中词向量模型是改进定向Skip-Gram模型,改进定向Skip-Gram模型:
其中:g(wt+i|wt)表示预测上下文的概率,wt+i为词wt的左侧或者右侧的词,表示定向的wt的权重向量,表示向量转置,表示wt基于上下文的权重向量,V表示词表大小;
S3.跨领域模型迁移:
通过源领域训练神经网络模型,对训练好的模型进行迁移,共享模型中卷积核的权重值,使用源领域训练好的卷积核权重提取目标领域中对应的特征,对目标领域的少部分数据进行再次训练,调整之前训练好模型的全连接层权重的参数;
所述跨领域模型迁移的算法描述为:
使用源领域标记数据训练卷积神经网络模型,第一层为句子以矩阵形式存储的输入层输入的源领域样本xs,句子固定长度为n,表示在源领域输入的句子用词所对应的实数id序列,嵌入层将加入词向量模型,其中词向量维度为k,原输入层变为表示句子向量所映射的n*k的矩阵,单独一个词可用表示,表示句子中第i个词,表示词所对应的实数域,输入的句子表示为:
其中为连接运算符;
第二层为卷积层,卷积层提取句子特征,主要是通过h*k卷积核表示h*k的一个实数矩阵,h为输入的滤波器的大小,k为词向量维度,在输入层从上到下进行滑动,完成卷积的操作,通过卷积操作获得一个特征图cs,特征图cs为n-h+1的向量,即
其中,
其中f为非线性激活函数,bs为偏置项,ws表示卷积核的权重,滤波器的长度为h,i:i+h-1表示在卷积过程中扫描的词长度从第i个到i+h-1个;
第三层为池化层,池化层特征进一步提取,使用最大池化操作,取出特征值中的最大值作为主要的特征,记为max(cs):
最后一层为全连接层,经过全连接层后使用softmax分类器得到各个类的概率,通过概率的大小判断类别,公式如式(4.5)、(4.6)所示:
其中表示源领域数据经过全连接层的预测值,w表示全连接层的权重,b为偏置项系数,表示在源领域中样本在第i个类别下出现的概率,Label为标签种类;
使用少部分已标注的目标领域的数据集进行微调,为保证一致性使用xt表示目标领域样本,并与源领域输入层保持一致,使用相同的句子长度n和词向量维度k,将输入层表示为的格式,输入句子表示为:
bs为偏置项,使用前向传播算法获取特征图ct,公式为:
其中,
并且使用最大池化层选择出特征图ct的每一列最大值,作为特征向量记为max(ct);
对最后一层全连接层中的权重使用随机梯度下降方法进行微调,w表示全连接层的权重,b为偏置项系数,表示在目标领域中样本在第i个类别下出现的概率,Label为标签种类;
在源领域数据集上使用包含三个卷积层的卷积神经网络进行训练,并保存训练好的模型结构和各层权重,在训练目标领域数据时不改变前三层已训练好的权重,而只对最后一层全连接层的权重进行微调,并使用随机梯度下降方法调整权重值,再对目标领域进行情感分类,根据概率的结果判断样本在第i个类别下的概率,样本将属于概率最大的一类作为其情感分类。
2.如权利要求1所述的一种基于卷积神经网络的跨领域情感分析的模型训练方法,其特征在于,所述步骤S1包括:
分词与词性标注:英文使用nltk分词,中文使用jieba分词,对于出现高频率的,但是对于文本分词没有实际的作用的词定义为停用词,将其去除;并在分词后对词性标注;命名实体识别:使用bilstm+crf的方式进行命名实体识别,通过bilstm去进行特征的选择,之后使用crf进行训练识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910020227.5/1.html,转载请声明来源钻瓜专利网。





