[发明专利]一种新闻评论的情感分析与生成方法有效
| 申请号: | 202210102343.3 | 申请日: | 2022-01-27 |
| 公开(公告)号: | CN114444481B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 彭德中;张蔚琪;吕建成;彭玺;桑永胜;胡鹏;孙亚楠;王旭;陈杰;王骞 | 申请(专利权)人: | 四川大学 |
| 主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/284;G06F40/30;G06F40/216 |
| 代理公司: | 北京盛凡佳华专利代理事务所(普通合伙) 11947 | 代理人: | 靳桂琳 |
| 地址: | 610000 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 新闻 评论 情感 分析 生成 方法 | ||
本发明公开了一种新闻评论的情感分析与生成方法,具体包括以下步骤:准备初始数据集,其中包含人工标注小规模数据集A和大规模无监督数据集B;在数据集B的基础上,使用开源情感分类工具,为新闻评论情感分析模型建立大规模伪标签数据集C;基于大规模伪标签数据集C预训练新闻评论情感分析模型;预训练后再在人工标注的小规模数据集A上微调,得到最终的新闻评论情感分析模型;使用最终的新闻评论情感分析模型,重新在数据集B上进行伪标签标注得到大规模伪标签数据集D;基于大规模伪标签数据集D预训练可控式新闻评论生成模型;预训练后在人工标注的小规模数据集A上微调,得到最终的可控式新闻评论生成模型。
技术领域
本发明属于自然语言处理中的情感分析与文本生成领域,特别涉及到一种新闻评论的情感分析与生成方法。
背景技术
新闻评论是倾听民众声音、了解民众诉求的重要窗口之一,面对互联网每时每刻不断产生的海量新闻评论,利用自然语言理解技术,自动实时地对海量新闻评论进行舆情情感分析,即时监测民众情绪、发现恶意、不实评论,对于政策制定、风险控制等具有重要意义。在舆情监测的同时,利用自然语言生成技术,自动可控地为新闻生成评论,有益于引导正确的舆论导向、疏导控制负面舆情等。
情感分析可以抽象为一个文本分类任务,一般分为正面、负面和中性三个类别。现有的情感分析技术一般分为基于规则的方法、基于传统机器学习的方法和基于深度学习的方法。基于规则的方法一般需要人工构建情感词典,依靠原文中出现的情感词进行情感极性的判断,这类方法需要耗费大量人力物力进行情感词典的构建,且泛化能力差;基于传统机器学习的方法虽然可以自动地从数据中学习,但仍需要人工进行费时费力的特征工程;基于深度学习的方法利用CNN、RNN、Transformers等具有强大特征提取能力的深度神经网络,大大降低了人工特征工程的工作量,取得了良好的效果,尤其是近些年来,基于Transformers结构的预训练语言模型,如BERT、ERNIE等的兴起,不断刷新自然语言处理各项任务的榜单。这些预训练语言模型通过在大规模无监督文本上进行预训练,获得了强大的文本表征能力和泛化能力,迁移到情感分析领域也大幅超越以往的模型。
新闻评论生成一般使用VAE、GAN、Seq2Seq、语言模型等生成式模型实现,相较于基于模板或检索的方法,生成式模型能依据新闻原文的语义直接生成相关的评论,不再依赖于特定的模板或评论库。近年来,GPT、UniLM、T5等预训练语言模型在文本生成领域大放异彩,很多时候生成的文本甚至能以假乱真,在这些模型中,通过设置不同的Prompt,模型可以应用于多种任务。
然而现有技术仍存在以下问题:现有的预训练语言模型在迁移至新闻评论情感分析和生成这两个下游任务时,为保证效果,依旧依赖于大量的标注数据,而领域内尚缺乏高质量的相关数据集,且人工标注费时费力;现有的新闻评论情感分析方法,大多将评论孤立地看待,没有同时考虑新闻原文的语义;现有的评论生成方法大多可控性弱,只是依据新闻原文随机地生成评论,无法在生成时设定想要的情感极性以达到舆情引导等目的;而研究通常将新闻评论情感分析和生成两个任务独立开来做,缺少对二者相互促进关系的考虑。
发明内容
本发明所要解决的技术问题在于针对现有技术中的不足,提供一种新闻评论的情感分析与生成方法。该方法使用的预训练语言模型技术,结合半监督学习方法,配合大规模无监督数据集,即可训练得到新闻评论情感分析和可控式评论生成两个模型,并让模型关联起来相互促进,大大减少了人工标注的工作量。
为了解决上述技术问题,本发明通过以下方式来实现:
一种新闻评论的情感分析与生成方法,具体包括以下步骤:
S1、准备初始数据集,其中包含人工标注小规模数据集A和大规模无监督数据集B;
S2、在数据集B的基础上,使用开源情感分类工具,为新闻评论情感分析模型建立大规模伪标签数据集C;
S3、基于大规模伪标签数据集C预训练新闻评论情感分析模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210102343.3/2.html,转载请声明来源钻瓜专利网。





