[发明专利]一种基于迁移学习的方面级别情感分析方法及装置在审
| 申请号: | 202210302985.8 | 申请日: | 2022-03-24 |
| 公开(公告)号: | CN114912423A | 公开(公告)日: | 2022-08-16 |
| 发明(设计)人: | 侯培国;夏宇同 | 申请(专利权)人: | 燕山大学 |
| 主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F40/30;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 张建 |
| 地址: | 066004 河北*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 迁移 学习 方面 级别 情感 分析 方法 装置 | ||
本发明公开一种基于迁移学习的方面级别情感分析方法及装置,属于自然语言处理技术领域,该方法包括获取方面级别的情感分析数据集并进行预处理,得到包含方面级别评价实体和上下文的样本序列,作为无标签数据;构建RoBERTa模型,使用无标签数据做掩码预测任务训练RoBERTa模型,得到完成此阶段训练任务的RoBERTa模型;获取文档级别情感数据集;对完成掩码预测预训练任务的RoBERTa模型,做文档级别情感分析任务训练此模型;构建融合评论文本信息、方面信息的句子对作为第二样本序列;将第二样本序列输入已完成文档级别情感分析任务的RoBERTa模型,输出情感类别标签,使其可以获得准确率更高的精度表现。
技术领域
本发明属于自然语言技术领域,尤其涉及一种基于迁移学习的方面级别情 感分析方法及装置。
背景技术
自然语言处理(Natural Language Processing,NLP)是为了让计算机理并 处理现实世界中的人类语言应运而生的人工智能技术,属于语言学与计算机科 学的交叉学科。情感分析是NLP中一个应用领域广泛,联系实际紧密并且富有 挑战性的任务。方面级别情感分析可以识别出样本数据中特定属性对应的情感 极性,例如评论文本“这个餐厅环境很优美,但是服务太糟糕。”分别针对环 境与服务两个方面术语提出了更具体的情感极性判别。近年来,研究者越来越 多的使用细粒度的文本情绪分类方法来根据社交网络和电商平台的评论数据来 进行决策。基于目标实体和上下文评论文本的方面级别情绪文本分类是一项细 粒度情感分析任务,进行数据集标注时需要大量的相关领域知识和专家级别的 注释工作。细粒度文本分类任务因缺乏高质量标签数据,训练出来的深度学习 模型泛化误差大,限制了模型在测试集情感极性判断的准确率提高。
基于传统机器学习的情感分析方法如,K临近算法、朴素贝叶斯以及支持向 量等,都可以实现文本分类,但是传统机器学习方法的工作集中于特征工程, 难以通过引入外部的领域知识提升模型性能。深度学习模型如循环神经网络RNN 和卷积神经网络提取文本序列中的语义知识,可以捕获评价实体和语境深层次 的语义信息,有效文本情感分类的准确率。构建深度学习神经网络模型时,由 于内存消耗和梯度衰减问题模型无法通过加深结构获得更多收益。
2018年谷歌发布的Transformer模型只使用自注意力机制,摆脱了基础神 经网络在处理NLP任务时序列依赖性,为双向编码器模型BERT提供了最基础的 技术支撑。Facebook AI遵循BERT模型的神经网络结构,通过调整超参数与训 练集大小,去除下一句预测的预训练子任务,提出更稳健的双向编码器模型 RoBERTa模型。迁移学习在NLP研究中的应用主要体现为域适应,特别是在方面 级别情感分析这种训练数据少、标注成本高的文本分类任务中。基于迁移学习 思想将方面级别情感分析以外的辅助模块数据集视为源域,在训练文本情绪分 类任务时,可以利用在相关任务中获得外部知识来帮助模型实现目标任务。
发明内容
本发明为了解决上述缺陷,提出了一种基于迁移学习的方面级别情感分析 方法及装置。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于迁移学习的方面级别情感分析方法,包括:
获取方面级别的情感分析数据集并进行预处理,去掉情感极性标签,得到 包含方面级别评价实体和上下文的第一样本序列,作为无标签数据;
构建RoBERTa模型,使用无标签数据做掩码预测任务训练RoBERTa模型, 得到完成此阶段训练任务的RoBERTa模型;
获取与方面级别情感分析相同场景下的文档级别情感数据集;
对完成自监督掩码预测训练任务的RoBERTa模型,做文档级别情感分析任 务训练此模型;
再次获取方面级别情感分析数据集,构建融合评论文本信息、方面信息的 句子对作为第二样本序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210302985.8/2.html,转载请声明来源钻瓜专利网。





