[发明专利]一种新闻评论的情感分析与生成方法有效

专利信息
申请号: 202210102343.3 申请日: 2022-01-27
公开(公告)号: CN114444481B 公开(公告)日: 2023-04-07
发明(设计)人: 彭德中;张蔚琪;吕建成;彭玺;桑永胜;胡鹏;孙亚楠;王旭;陈杰;王骞 申请(专利权)人: 四川大学
主分类号: G06F40/247 分类号: G06F40/247;G06F40/284;G06F40/30;G06F40/216
代理公司: 北京盛凡佳华专利代理事务所(普通合伙) 11947 代理人: 靳桂琳
地址: 610000 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 新闻 评论 情感 分析 生成 方法
【权利要求书】:

1.一种新闻评论的情感分析与生成方法,其特征在于:具体包括以下步骤:

S1、准备初始数据集,其中包含人工标注小规模数据集A和大规模无监督数据集B;

S2、在数据集B的基础上,使用开源情感分类工具,为新闻评论情感分析模型建立大规模伪标签数据集C;

S3、基于大规模伪标签数据集C预训练新闻评论情感分析模型;

S4、预训练后再在人工标注的小规模数据集A上微调,得到最终的新闻评论情感分析模型;

S5、使用最终的新闻评论情感分析模型,重新在数据集B上进行伪标签标注得到大规模伪标签数据集D;

S6、基于大规模伪标签数据集D预训练可控式新闻评论生成模型;

S7、预训练后在人工标注的小规模数据集A上微调,得到最终的可控式新闻评论生成模型;

所述步骤S3中新闻评论情感分析模型包括Roformer模型和下游分类网络,Roformer模型输入为input_ids和token_type_ids,分别经过word embedding层和segment embedding层后转为词向量序列和段向量序列;input_ids公式如下:

input_ids=[CLS]comment[SEP]news[SEP]    (1)

其中,[CLS]表示整体的语义,[SEP]表示用做分隔,comment表示新闻评论,news表示新闻原文;

token_type_ids用来标志input_ids中的句子成分类别,在[CLS]comment[SEP]部分设置为1,标志为评论;news[SEP]部分设为0,标志为新闻原文内容;输入Roformer模型得到最后一层的隐状态last_hidden_state,公式如下:

last_hidden_state=Roformer(input_ids,token_type_ids)    (2)

第一个[CLS]位置隐状态hcls作为评论与新闻原文的句子关系的特征向量,经过下游分类网络得到该评论情感极性类别上的概率值ypred,公式如下:

ypred=softmax(Linear2(dropout(tanh(Linear1(hcls)))))    (3)

其中,softmax表示激活函数,用于将特征向量每一维的值归一化为概率形式,tanh表示双曲正切激活函数,dropout表示随机丢弃层,Linear1表示输入维度和输出维度均和hcls维度一致的中间线性层,Linear2表示输入维度和hcls维度一致,输出维度为情感极性类别个数的中间线性层。

2.如权利要求1所述的一种新闻评论的情感分析与生成方法,其特征在于:

所述步骤S2中建立大规模伪标签数据集C流程是:使用开源情感分类工具Senta,预测无监督数据集B中新闻所有评论的情感极性,得到评论正面的概率a;将a>0.85的作为正面评论,a<0.15的作为负面评论,0.4<a<0.6的作为中性评论,进而得到大规模伪标签数据集C。

3.如权利要求1所述的一种新闻评论的情感分析与生成方法,其特征在于:

所述步骤S3中的预训练阶段,使用预测概率值ypred与真实概率值ytrue计算交叉熵损失,公式如下:

其中,N表示样本数,M表示类别数,P(ytrue-ic)表示第i个样本为第c个类别的真实概率,P(ypred-ic)表示第i个样本为第c个类别的预测概率。

4.如权利要求1所述的一种新闻评论的情感分析与生成方法,其特征在于:

所述步骤S6中可控式新闻评论生成模型包括UniLM模型,UniLM模型输入为input_ids和token_type_ids,其中input_ids的公式如下:

input_ids=[CLS]news[SEP][ui]~[uj]comment[SEP]    (5)

其中,[ui]~[uj]表示Roformer词表中预留的占位token,不同情感极性设置不同的占位token序列,长度相同但彼此间token不交叉;模型建模的概率及分解在每个token上展开后形式的条件概率为;

其中,n为新闻原文,p为Prompt,c为评论,ci为评论中第i个token,c<i为评论中第i个token之前的token序列;

token_type_ids用来标志input_ids中的句子成分类别,在[CLS]news[SEP]部分设置为0,计算时采用双向注意力,在[ui]~[uj]comment[SEP]部分设置为1,计算时采用单向注意力;在模型输出的comment部分进行自回归预测,训练时采用负对数似然损失函数优化模型,其公式如下:

其中,ci为第i个样本的评论,ni为第i个样本的新闻原文,pi为第i个样本的Prompt。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210102343.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top