[发明专利]一种基于RoBERTa模型的情感分析方法及装置在审
申请号: | 202210301411.9 | 申请日: | 2022-03-24 |
公开(公告)号: | CN114742066A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 侯培国;夏宇同 | 申请(专利权)人: | 燕山大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/151;G06N3/04;G06N3/08 |
代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 张建 |
地址: | 066004 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 roberta 模型 情感 分析 方法 装置 | ||
本发明公开了一种基于RoBERTa模型的情感分析方法及装置,属于自然语言处理技术领域,包括获取文本情感分析数据集并进行预处理,得到训练集、验证集和测试集;提取训练集和验证集的评论文本,转换成无标签数据作为RoBERTa模型预训练任务的语料;构建RoBERTa‑WWM‑ext模型和双向独立循环神经网络并训练,将已完成预训练的RoBERTa‑WWM‑ext模型的最后一层隐藏层外接双向独立循环神经网络,得到情感分析模型,其中,双向独立循环神经网络需要对双向独立循环神经网络输出的特征向量进行权重分配;通过情感分析模型,对测试集进行情感极性预测输出情感类别标签;该方法可以有效提升文本情感分析的精度表现。
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于RoBERTa模型的情感分 析方法及装置。
背景技术
随着互联网的推广,用户更加倾向于针对社交媒体或评论网站中公共事件 发表意见,设计基于网络平台中文本评论的情感分析任务,有助于相关方面了 解舆论倾向,掌握与舆论相关的社会事件所带来的影响。情感分析是自然语言 处理中的重要分支,常见形式为基于文本的情感极性分类,属于监督学习任务, 其目的是将来源于实际场景的评论作为输入,预测出他们的情感倾向。情感分 析技术可以用于收集观点,作为反馈信息,具有促进服务社会的实际意义。
基于传统机器学习的情感分类方法如支持向量机、构建情感词典、朴素贝 叶斯等,需要复杂的特征工程,且模型的精度表现依赖于样本质量。前馈神经 网络模型通过加深隐藏层提升模型对于深层次抽象语义特征的理解能力,但是 仍需要大量人工特征工程。卷积神经网络可以通过卷积窗口提取信息,并经过 多层卷积处理映射成情感类别,循环神经网络可以将不定长度的文本序列映射 成固定长度的词表征。中文网络文本情感分析数据具有情感倾向不强烈,包含 有标签数据量少的特点。基于Transformer编码器的自注意力机制的双向编码 器模型BERT和更具有鲁棒性的预训练模型RoBERTa,通过自监督预训练的域适 应方式、大规模的参数量和训练强度使模型获得强大的特征提取能力和上下文 理解能力,可以在使用此类数据集的情感分析任务取得优于传统深度学习模型 的分类效果。
依据上述内容,本发明提出进一步预训练RoBERTa模型,迁移此模型作为 基础模型外接用于学习长距离依赖独立循环神经网络(Indpendently Recurrent NeturlNetwork),引入注意力机制提升计算速度和拟合效果。本发明可以针 对如微博、知乎等网民评论和留言,进行有效的情感极性分类。
发明内容
本发明为了解决上述缺陷,提出一种基于RoBERTa模型的情感分析方法及 装置。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于RoBERTa模型的情感分析方法,包括:
获取情感分析数据集并进行预处理,得到训练集、验证集和测试集;
提取训练集和验证集中的评论文本转换成无标签数据集;
构建RoBERTa-WWM-ext模型,将无标签数据集中的评论文本进行随机掩码 处理,得到掩码标志位,再通过对掩码标志位进行词预测的方式训练 RoBERTa-WWM-ext模型,得到训练好的RoBERTa-WWM-ext模型;
构建双向独立循环神经网络并训练,将完成掩码预测训练任务的 RoBERTa-WWM-ext模型的最后一层隐藏层外接双向独立循环神经网络,得到最终 的情感分析模型,其中,双向独立循环神经网络需要对双向独立循环神经网络 输出的特征向量进行权重分配;
获得最终的情感分析模型,将测试集中的评论文本输入情感分析模型进行 情感极性预测,输出情感类别标签。
本方法的进一步改进在于:所述提取训练集和验证集的评论文本转换成无 标签数据集包括:
将无标签数据集的格式转换成设定的表格形式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210301411.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气罐定量快灌机构及方法
- 下一篇:一种火灾回燃试验箱及使用方法