[发明专利]一种基于深度学习的emoji文本情感分析方法及系统有效

专利信息
申请号: 202111039708.4 申请日: 2021-09-06
公开(公告)号: CN113761204B 公开(公告)日: 2023-07-28
发明(设计)人: 胡广伟;艾文华 申请(专利权)人: 南京大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06N3/0455;G06N3/0464
代理公司: 北京智绘未来专利代理事务所(普通合伙) 11689 代理人: 肖继军;赵卿
地址: 210023 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 emoji 文本 情感 分析 方法 系统
【权利要求书】:

1.一种基于深度学习的Emoji文本情感分析方法,其特征在于,所述Emoji文本情感分析方法包括以下步骤:

步骤1,采集带有emoji的独立用户生成文本;独立用户生成文本指单条文本信息的语义与其他文本信息的语义不存在上下文的关联关系,且此条文本信息没有引用或嵌入其他文本信息或媒体链接;

步骤2,对步骤1采集到的独立用户生成文本进行筛选,将各emoji按照对应独立用户生成文本数量的多少从大到小进行排序,选择包含前ns个emoji的文本作为筛选后的原始数据集;

步骤3,对步骤2筛选出的原始数据集进行series、classes以及veils三个维度的向量封装;并将ns种emoji从0标注至ns-1作为标签labels;series是文本中各个字的编码标记组合成的一个向量;首先在每个文本的最前和最后分别加上起始和终结符号;根据起始符号将数据集中所有文本分成一个个单字再将文本的每个单字按照字表标记为对应的编码,并将起始和终结符号也进行编码;字表为NLP中文通用字表或自己创建的字表;classes向量的值全部标为0;series向量和classes向量的向量长度需相同,且都不能超过512维;veils向量则是series以及classes向量中补零位置做的标识;如果m维向量的后n维是补零得到,前m-n维是原文本的文字对应的维度,则令veils的前m-n维为1,后n维为0,以区分原文本部分和补零部分;如果原文本长度超过了m个字符,就要令veils向量的全部m个维度都为1;

步骤4,将步骤3中的series以及其对应的classes、veils和labels按比例划分为训练集、验证集以及测试集;

步骤5,构建emoji文本情感分析模型;所述emoji文本情感分析模型由一个编码器和一个解码器组成;编码器由9-12个编码模块组成,每一编码模块由3个编码子模块组成;第一编码子模块为一个三角函数编码层;第二编码子模块为一个多头自注意力机制,多头自注意力机制的头数选6或12枚;第三编码子模块为一个全连接卷积神经网络,卷积层的个数为2的倍数;第一与第二编码子模块间相连接,第一编码子模块直接将编码后的series传输至第二编码子模块;第二编码子模块与第三编码子模块间通过残差连接相连;

解码器的解码模块个数与编码器的编码模块个数相等,每个解码模块由4个解码子模块组成;第一解码子模块为一个与第一编码子模块中三角函数编码层相同的三角函数编码层;第二解码子模块为一个多头自注意力机制,多头自注意力机制的头数与第二编码子模块中的多头自注意力机制头数相同;第三解码子模块为一个全连接卷积神经网络,卷积层的个数与第三编码子模块相同;第四解码子模块为一个多头自注意力机制,多头自注意力机制头数为第二解码子模块中多头自注意力机制头数的一半;所述三角函数编码层的编码方法为:

其中,f(wj,lj)表示series向量中第j个单字的三角函数编码值,wj表示包含series向量中第j个单字的词语在原文本中的位置,lj表示series向量中第j个单字在series中的位置,等于j+1;m表示series向量的长度;

编码后将编码值附加在终结符号后;

步骤6,将步骤4训练集的series、classes、veils向量以及labels输入至步骤5构建的emoji文本情感分析模型进行训练;所述训练具体包括以下步骤:

步骤601:使用“[HIDE]”随机挡住15%-20%的series以及其对应的classes和veils;

步骤602:采取两种方法进行参数微调,将已经训练好的网络模型的特征层参数固定不变,只对任务层的参数进行更新,获取基础语义信息;并将整个网络模型的参数作为训练新任务模型的一个初始化,再根据当前任务进行训练,更新模型上的参数;

特征层是指emoji文本情感分析模型中所使用的全连接卷积神经网络中前70%~80%的卷积层,任务层为全连接卷积神经网络中其他的卷积层;

步骤603:对每个输入样本,模型的输出是一个64*1的向量x,训练过程中将此向量做softmax转化为一个概率分布,然后与该样本真实分类的one-hot编码向量形式计算交叉熵以衡量两个概率分布的相似程度,并根据梯度方向进行更新;

步骤604:采用AdamW优化方法,设定学习率lr=0.00002;在训练时,设置一个变量累加各次迭代的train_loss值,每隔mm次迭代,计算这mm次迭代的平均train_loss并记录,并将train_loss变量归零;同时每隔mm次迭代就用当前的模型在验证集上做验证测试,记录这时模型的valid_loss值;

步骤605,当valid_loss值最小时,停止训练,得到训练好的emoji文本情感分析模型;此时,将任意独立用户生成文本按照步骤3的方法生成一个series向量,输入至模型中后,得到其最有可能对应的emoji类别以及概率值;

步骤7,将测试集输入至步骤6训练好的emoji文本情感分析模型之后再进行聚类,得到最终的结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111039708.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top