[发明专利]一种基于目标情感分析数据集的数据增强方法有效
申请号: | 202010095397.2 | 申请日: | 2020-02-17 |
公开(公告)号: | CN111324744B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 胡弘康;权小军 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/0455;G06N3/047;G06N3/084;G06F40/289;G06F40/30 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 目标 情感 分析 数据 增强 方法 | ||
1.一种基于目标情感分析数据集的数据增强方法,其特征在于,包括:
S10预训练语言模型BERT:采集目标领域内的数据集预训练语言模型BERT;
S20对文本预处理:对待增强文本进行分词处理得到其对应的单词序列,从待增强文本的单词序列中挑选出非情感类单词作为目标,用全词掩盖方法掩盖目标;从待训练文本的单词序列中随机挑选单词用全词掩盖方法掩盖;
所述语言模型BERT包括:
分词模块,用于对输入的文本基于语义进行分词生成单词序列;
掩盖模块,用于从单词序列中挑选单词以用遮掩词掩盖;
词嵌入模块,用于对掩盖后的单词序列编码成神经网络能够识别的单词向量序列E且将其输入Transformer模块,其中每个单词对应的向量均包括语义信息和该单词在文本中的位置信息,被掩盖的非情感类词的语义信息用遮掩词代替;
Transformer模块,由多个Transformer网络堆叠而成,每个Transformer网络均采用了多头自注意力机制,第一个Transformer网络将单词向量序列E作为输入,其他Transformer网络的输入是前一个Transformer网络的输出,以获取单词向量序列E中每个单词以不同的权重注意单词向量序列中的所有单词,并对单词向量序列E中每个单词加权求和得到新单词向量序列H;
输出模块,用于根据其语义和位置对应的隐藏状态获取新单词向量序列H中每个单词在语言模型BERT词表中所分配的概率;
损失模块,用于根据被掩盖词的语义信息和其位置上每个单词的概率采用交叉熵计算在训练过程中每个被掩盖词的损失之和,再反向传播以更新网络参数;
采样模块,用于在增强阶段,随机采样输出模块输出概率的一个单词作为新目标;
替换模块,用于将新目标替换文本中的目标,得到增强后的新样本;
所述S20具体包括:
S201从语料中随机选择一段文本,对这段文本根据空格或者标点进行分词,得到其对应的单词序列;
S202从待增强文本的单词序列中挑选出非情感类词作为掩盖目标;从待训练文本的单词序列中随机挑选单词;
S203从S202所挑选出的掩盖目标或单词按词根和词缀进行子词切分,用遮盖词分别对所切分的所有目标或单词的子词掩盖;
S30将预处理后的待训练文本输入预训练后的语言模型BERT进行训练,语言模型BERT对文本中每个单词根据其语义和位置对应的隐藏状态计算其概率分布及损失,相加所有被掩盖目标的损失得到文本总损失,把文本总损失反向传播更新语言模型BERT的参数至模型收敛;
S40把预处理后的待增强文本输入收敛后的语言模型BERT中,随机采样单词出现概率作为新目标,将新目标替换文本中的目标,得到增强后的新样本。
2.如权利要求1所述的基于目标情感分析数据集的数据增强方法,其特征在于,所述Transformer模块由12层Transformer网络堆叠而成,每层Transformer网络包括12头注意力模块,其词嵌入的维度与词嵌入模块的维度相等。
3.如权利要求2所述的基于目标情感分析数据集的数据增强方法,其特征在于,每层所述Transformer网络包括多头注意力模块、多头残差归一层、前馈神经网络及前馈残差归一层,词嵌入表示E输入多头注意力模块抽取文本特征,所抽取的文本特征输入多头残差归一层梯度传递至前馈神经网络,前馈神经网络对文本特征进行非线性变换后输入前馈残差归一层得到梯度输出的文本特征。
4.如权利要求3所述的基于目标情感分析数据集的数据增强方法,其特征在于,所述多头注意力模块包括N头子空间、拼接层和线性总层,其中每头子空间包括3个线性层和1个缩放点积注意力层,词嵌入层表示E分别输入每头子空间的3个线性层进行线性转换得到线性向量Q、线性向量K、线性向量V的投影,再把投影后的结果汇积到每个缩放点积注意力层计算得到一定角度提取的语义信息作为每头子空间的输出,拼接N头子空间所有的输出,再经过线性总层线性转换得到不同角度提取的最终语义信息,以作为多头注意力模块的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010095397.2/1.html,转载请声明来源钻瓜专利网。