[发明专利]基于多提示学习的评语数据增强与方面级情感分析方法在审
申请号: | 202310340273.X | 申请日: | 2023-03-31 |
公开(公告)号: | CN116361420A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 朱新华;旷中洁 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06F17/16 |
代理公司: | 南宁东智知识产权代理事务所(特殊普通合伙) 45117 | 代理人: | 汪治兴 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 提示 学习 评语 数据 增强 方面 情感 分析 方法 | ||
1.一种基于多提示学习的评语数据增强与方面级情感分析方法,其特征在于包括以下步骤:
S1.将方面级情感分析的提示模板的结构定义成由输入槽、方面槽、极性答案槽、情感关键词槽和提示模式所组成;
S2.以步骤S1所定义的提示模板的结构为基础,提出一种基于BERT模型的提示模板自动生成方法;
S3.使用步骤S2所提出的基于BERT模型的提示模板自动生成方法,为指定的方面级情感分析数据集Ψ生成优化的提示模板;
S4.使用步骤S3所生成的优化的提示模板,对方面级情感分析数据集Ψ的训练集进行数据增强;
S5.使用步骤S4所数据增强的方面级情感分析数据集Ψ的训练集,对BERT模型进行多提示学习的微调,得到一个基于多提示学习的方面级情感分析BERT模型;
S6.使用步骤S5微调的BERT模型,对方面级情感分析数据集Ψ的测试集中的方面目标进行情感预测;
所述BERT模型是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT,基于Transformers的双向编码器表示)神经网络语言模型。
所述步骤S1具体包括:
S1.1将方面级情感分析的提示模板的结构定义成如下形式:
T=f(X,A,Z,K;P) (1)
其中,T为被定义的提示模板,X为一个原始评语句子,A为X中一个待预测的方面目标,Z为一个潜在的情感极性答案,K为一个情感关键词,P为一个模板模式,f(X,A,Z,K;P)是用于将X,A,K,Z填充到P中的构造函数;
所述情感关键词为一个反映情感特征的情感名词;
所述模板模式为一个包括输入槽[X]、方面槽[A]、极性答案槽[Z]和情感关键词槽[K]的句子框架;
所述输入槽[X]用于填充X,所述方面槽[A]用于填充A,所述极性答案槽[Z]用于填充Z,所述情感关键词槽[K]用于填充K;
S1.2将方面级情感分析的提示模板的类型分为修饰提示模板和前缀提示模板两大类;
所述修饰提示模板是一种提示以定语形式出现在评语句中间的提示模板,定义如下:
Pm=[X1]+[A]+fm(Z,K)+[X2]. (2)
其中,Pm为所定义的模板模式,[X1]和[X2]为两个输入子槽,X1为待预测的方面目标A在X中的左侧句子成分,X2为待预测的方面目标A在X中的右侧句子成分,fm(Z,K)为使用Z和K形成修饰提示的构造函数;
所述前缀提示模板是一种将提示以独立句子出现在评语句后面的提示模板,定义如下:
Pp=[X].+fp(A,Z,K). (3)
其中,Pp为所定义的模板模式,fp(A,Z,K)为使用A、Z和K形成前缀提示的构造函数。
所述步骤S2具体包括:
S2.1从情感分析语料中筛选出常用的情感关键词,形成情感关键词集合D;
S2.2使用一个简化的基于BERT的句子对提示模式:P0=[CLS]+[X]+[SEP]+[A]+[Z]+[K]+[SEP],并使用预训练BERT模型,以及BERT模型下一句子预测任务的分类层,在指定的方面级情感分析数据集Ψ的训练集上,对情感关键词集合D进行测试,生成Ψ的最佳情感关键词计算过程如下:
xk=BertTokenizer(f(x,a,za,k;p0)) (4)
Hk=BERT(xk) (5)
其中,[CLS]为BERT模型中的分类符,[SEP]为BERT模型中的分隔符,k为D中任意一个情感关键词,x为Ψ的训练集中一个带有方面目标a的原始评语样本,za为方面目标a的真实情感极性答案,xk∈Rn×e为x附加填充情感关键词k的提示所形成的评语与提示句子对,n为xk在BERT中的词的数量,e为BERT模型中词编码的维度,BERT(·)表示预训练的BERT模型,Hk∈Rn×d为xk经BERT处理后的隐藏状态序列,d为BERT模型的隐藏状态的维度,为xk中分类符[CLS]对应的隐藏状态,ok∈R|B|为xk中填充情感关键字k的置信向量,B={yes,no}为逻辑值的集合,|B|为集合B中元素个数,Wb∈R|B|×d是B中逻辑值的表示矩阵,bb∈R|B|是BERT分类层的偏置向量,为求概率的逻辑值,y为B中一个逻辑值,为xk成立的逻辑值取时的置信分数,ok,y为xk成立的逻辑值取y时的置信分数,用于预测xk成立的逻辑值为的概率,θb表示BERT模型的所有参数,exp(·)表示底为e的指数函数,为E中的第i个xk,E为指定的方面级情感分析数据集Ψ的训练集,|E|为E中的评语样本的数量,yyes为逻辑值为“yes的逻辑标签,函数求使得函数自变量为最大值的k,函数BertTokenizer(·)为BERT模型的分词器;
S2.3根据方面目标和其他词的位置关系,为前缀提示模板和修饰提示模板分别设计三种提示模式,构成模板模式的离散空间M,如表1所示:
表1模板模式的离散空间M
S2.4使用步骤S2.2生成的指定的方面级情感分析数据集Ψ的最佳情感关键词并使用预训练BERT模型,以及BERT模型的下一句子预测任务的分类层,在Ψ的训练集上,对模板模式的离散空间M进行测试,生成Ψ的优化的模板模式序列计算过程如下:
Hp=BERT(xp) (10)
其中,p为M中任意一个模板模式,x′为Ψ的训练集中一个带有方面目标a′的原始评语样本,za′为方面目标a′的真实情感极性答案,xp∈Ru为x′附加模板模式p的提示所形成的带提示的评语输入,u为xp在BERT中的词的数量,Hp∈Ru×d为xp经BERT处理后的隐藏状态序列,为xp中分类符[CLS]相对应的隐藏状态,op∈R|B|为xp采用模板模式p的置信向量,为xp成立的逻辑值取时的置信分数,op,y为xp成立的逻辑值取y时的置信分数,用于求xp成立的逻辑值为的预测概率,为E中的第i个xp,函数求使得自变量降序排序的p的排名。
所述步骤S3具体包括:
使用步骤S2所提出的基于BERT模型的提示模板自动生成方法,为指定的方面级情感分析数据集Ψ生成优化的提示模板其中,表示Ψ的最佳情感关键词,通过步骤S2.2中的公式(8)计算得到,表示Ψ的优化的模板模式序列,所述优化的模板模式序列是指M中通过公式(13)进行排名后的模板模式序列。
所述步骤S4中,对方面级情感分析数据集Ψ的训练集进行数据增强,遵循以下原则:
(1)所述对训练集进行数据增强,是指对训练集中的评语样本进行扩充与提示模式配对;
(2)为了避免过度拟合,在使用多提示学习扩充数据时遵循适度原则,即仅扩展样本数较少的极性的训练子集,并保持至少一个极性的训练子集不变;
(3)在对训练子集进行扩充时,每一条原始评语句子,根据需要从步骤S3生成的中选择排名靠前的多条提示模式进行配对,形成多条带有不同提示模式的评语样本,而在不扩充的训练子集上仅使用中排名第一的提示模式,与每一条原始评语句子配对,形成对应的带有提示模式的评语样本;
(4)仅对方面级情感分析数据集Ψ的训练样本进行扩充,而保持测试样本的数量不变。
所述步骤S5具体包括:
S5.1从步骤S4所扩充的方面级情感分析数据集Ψ的训练集中,取出一条带有提示模式的评语样本送入用于方面情感分析的待微调的BERT模型BERTA中,得到基于BERT的输入序列以及在BERTA中隐藏状态序列计算过程如下所示:
其中,为所取出的带有提示模式的评语样本中的原始评语句子,为与配对的提示模式,为中待评测的方面目标,为所在数据集Ψ的最佳情感关键词,[MASK]为BERT模型中的掩码符,BERTA(·)表示用于方面情感分析的待微调的BERT模型;
S5.2将中分类符[CLS]相对应的隐藏状态送入BERTA的分类层,得到在极性答案集Ω={positive,negative,neutral}上的置信向量|Ω|为Ω中极性答案个数,以及[MASK]为指定的极性答案的预测概率,计算过程如下:
其中,是Ω中极性答案的表示矩阵,是BERTA分类层的偏置向量,表示BERTA模型的所有参数,用于预测中的[MASK]为的概率,w为Ω中的任意一个极性答案;
S5.3使用以下交叉熵损失函数微调BERTA模型:
其中,为Ω中第i个极性答案,yi为中的[MASK]为的真实概率标签;
重复上述步骤S5.1到S5.3,直到对扩充与提示配对的训练集中样本学习完毕。
所述步骤S6具体包括:
从中随机选一个提示模式,与待测试的原始评语句子进行配对,形成带提示的评语输入,送入步骤S5微调的BERTA模型,并采用公式(14)到公式(17)进行处理,然后通过如下公式(19)得到待测试的原始评语句子在指定方面目标上的情感极性:
其中,z为Ω中的任意一个极性答案,为计算得到的情感极性,函数求使得函数自变量为最大值的z。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310340273.X/1.html,转载请声明来源钻瓜专利网。