[发明专利]一种基于深度学习的emoji文本情感分析方法及系统有效
申请号: | 202111039708.4 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113761204B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 胡广伟;艾文华 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N3/0455;G06N3/0464 |
代理公司: | 北京智绘未来专利代理事务所(普通合伙) 11689 | 代理人: | 肖继军;赵卿 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 emoji 文本 情感 分析 方法 系统 | ||
一种基于深度学习的emoji文本情感分析方法及系统,包括:1、采集带有emoji的独立用户生成文本;2、对独立用户生成文本进行筛选后得到原始数据集;3、对原始数据集进行series、classes以及veils三个维度的向量封装,并得到标签labels;4、将series向量以及其对应的classes、veils向量和labels按比例划分为训练集、验证集以及测试集;5、构建emoji文本情感分析模型;6、将训练集的series、classes、veils向量以及labels输入至emoji文本情感分析模型进行训练;7、将测试集输入至训练好的emoji文本情感分析模型之后再进行聚类,得到最终的结果。本发明还公开了与所公开方法对应的系统。本发明不引入任何对emoji的先验理解,充分保留文本原来的情绪信息并不做任何破坏,公开的模型比现有模型更准确、细分度更高。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于深度学习的emoji文本情感分析方法及系统
背景技术
在自然语言处理领域中,很多任务尤其是文本分类、情感分析等都严重受限于语料数据缺少标注,且人工标注的成本很高。而随着社交媒体的崛起,emoji这种表情符号开始席卷全球,在社交平台如微博、qq、微信、推特等的文本中,用户常使用emoji代替文字来表达自己的情感,因此emoji在文本理解、文本情感分析中可以起到相当重要的作用。对于“语料缺少标注”的问题,在有emoji的文本中,emoji的存在相当于是用户自己给文本的情感态度做了一个标注,因此我们相当于直接得到了已经标注好了的数据。在分类任务中,可以用emoji作为类别标签,训练一个能预测输入文本携带的emoji的模型,通过对emoji的预测来让模型学习文本中蕴含的情感语义特征。
过去已有不少将emoji作为文本标签进行情感分类,并借此使模型学得更丰富的情感语义表示的研究。但过去的研究往往要引入先验的对emoji的理解,人工把emoji归类,此外,也有一些研究是基于数量较多的emoji标签的。部分文献通过训练获得每个emoji的“正面情绪嵌入向量”和“负面情绪嵌入向量”,再将其与文本中的词向量合并到一起进行文本分类。也有的现有技术通过构造emoji共现网络图来学得emoji向量,含有的emoji往往不止一种,并且利用的是“多emoji”的文本,而本发明是完全基于“单emoji”的文本进行分类的,以避免多标签分类。
发明内容
本发明采用如下的技术方案:
一种基于深度学习的Emoji文本情感分析方法,其特征在于,所述Emoji文本情感分析方法包括以下步骤:
步骤1,采集带有emoji的独立用户生成文本;独立用户生成文本指单条文本信息的语义与其他文本信息的语义不存在上下文的关联关系,且此条文本信息没有引用或嵌入其他文本信息或媒体链接;
步骤2,对步骤1采集到的独立用户生成文本进行筛选,将各emoji按照对应独立用户生成文本数量的多少从大到小进行排序,选择包含前ns个emoji的文本作为筛选后的原始数据集;
步骤3,对步骤2筛选出的原始数据集进行series、classes以及veils三个维度的向量封装;并将ns种emoji从0标注至ns-1作为标签labels;
步骤4,将步骤3中的series以及其对应的classes、veils和labels按比例划分为训练集、验证集以及测试集;
步骤5,构建emoji文本情感分析模型;
步骤6,将步骤4训练集的series、classes、veils向量以及labels输入至步骤5构建的emoji文本情感分析模型进行训练;
步骤7,将测试集输入至步骤6训练好的emoji文本情感分析模型之后再进行聚类,得到最终的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111039708.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于云渲染的AR眼镜系统及方法
- 下一篇:一种吹膜机半自动膜卷称重装置