[发明专利]一种新闻评论的情感分析与生成方法有效
| 申请号: | 202210102343.3 | 申请日: | 2022-01-27 | 
| 公开(公告)号: | CN114444481B | 公开(公告)日: | 2023-04-07 | 
| 发明(设计)人: | 彭德中;张蔚琪;吕建成;彭玺;桑永胜;胡鹏;孙亚楠;王旭;陈杰;王骞 | 申请(专利权)人: | 四川大学 | 
| 主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/284;G06F40/30;G06F40/216 | 
| 代理公司: | 北京盛凡佳华专利代理事务所(普通合伙) 11947 | 代理人: | 靳桂琳 | 
| 地址: | 610000 四川*** | 国省代码: | 四川;51 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 新闻 评论 情感 分析 生成 方法 | ||
1.一种新闻评论的情感分析与生成方法,其特征在于:具体包括以下步骤:
S1、准备初始数据集,其中包含人工标注小规模数据集A和大规模无监督数据集B;
S2、在数据集B的基础上,使用开源情感分类工具,为新闻评论情感分析模型建立大规模伪标签数据集C;
S3、基于大规模伪标签数据集C预训练新闻评论情感分析模型;
S4、预训练后再在人工标注的小规模数据集A上微调,得到最终的新闻评论情感分析模型;
S5、使用最终的新闻评论情感分析模型,重新在数据集B上进行伪标签标注得到大规模伪标签数据集D;
S6、基于大规模伪标签数据集D预训练可控式新闻评论生成模型;
S7、预训练后在人工标注的小规模数据集A上微调,得到最终的可控式新闻评论生成模型;
所述步骤S3中新闻评论情感分析模型包括Roformer模型和下游分类网络,Roformer模型输入为input_ids和token_type_ids,分别经过word embedding层和segment embedding层后转为词向量序列和段向量序列;input_ids公式如下:
input_ids=[CLS]comment[SEP]news[SEP] (1)
其中,[CLS]表示整体的语义,[SEP]表示用做分隔,comment表示新闻评论,news表示新闻原文;
token_type_ids用来标志input_ids中的句子成分类别,在[CLS]comment[SEP]部分设置为1,标志为评论;news[SEP]部分设为0,标志为新闻原文内容;输入Roformer模型得到最后一层的隐状态last_hidden_state,公式如下:
last_hidden_state=Roformer(input_ids,token_type_ids) (2)
第一个[CLS]位置隐状态hcls作为评论与新闻原文的句子关系的特征向量,经过下游分类网络得到该评论情感极性类别上的概率值ypred,公式如下:
ypred=softmax(Linear2(dropout(tanh(Linear1(hcls))))) (3)
其中,softmax表示激活函数,用于将特征向量每一维的值归一化为概率形式,tanh表示双曲正切激活函数,dropout表示随机丢弃层,Linear1表示输入维度和输出维度均和hcls维度一致的中间线性层,Linear2表示输入维度和hcls维度一致,输出维度为情感极性类别个数的中间线性层。
2.如权利要求1所述的一种新闻评论的情感分析与生成方法,其特征在于:
所述步骤S2中建立大规模伪标签数据集C流程是:使用开源情感分类工具Senta,预测无监督数据集B中新闻所有评论的情感极性,得到评论正面的概率a;将a>0.85的作为正面评论,a<0.15的作为负面评论,0.4<a<0.6的作为中性评论,进而得到大规模伪标签数据集C。
3.如权利要求1所述的一种新闻评论的情感分析与生成方法,其特征在于:
所述步骤S3中的预训练阶段,使用预测概率值ypred与真实概率值ytrue计算交叉熵损失,公式如下:
其中,N表示样本数,M表示类别数,P(ytrue-ic)表示第i个样本为第c个类别的真实概率,P(ypred-ic)表示第i个样本为第c个类别的预测概率。
4.如权利要求1所述的一种新闻评论的情感分析与生成方法,其特征在于:
所述步骤S6中可控式新闻评论生成模型包括UniLM模型,UniLM模型输入为input_ids和token_type_ids,其中input_ids的公式如下:
input_ids=[CLS]news[SEP][ui]~[uj]comment[SEP] (5)
其中,[ui]~[uj]表示Roformer词表中预留的占位token,不同情感极性设置不同的占位token序列,长度相同但彼此间token不交叉;模型建模的概率及分解在每个token上展开后形式的条件概率为;
其中,n为新闻原文,p为Prompt,c为评论,ci为评论中第i个token,c<i为评论中第i个token之前的token序列;
token_type_ids用来标志input_ids中的句子成分类别,在[CLS]news[SEP]部分设置为0,计算时采用双向注意力,在[ui]~[uj]comment[SEP]部分设置为1,计算时采用单向注意力;在模型输出的comment部分进行自回归预测,训练时采用负对数似然损失函数优化模型,其公式如下:
其中,ci为第i个样本的评论,ni为第i个样本的新闻原文,pi为第i个样本的Prompt。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210102343.3/1.html,转载请声明来源钻瓜专利网。





