[发明专利]一种基于目标情感分析数据集的数据增强方法有效
申请号: | 202010095397.2 | 申请日: | 2020-02-17 |
公开(公告)号: | CN111324744B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 胡弘康;权小军 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/0455;G06N3/047;G06N3/084;G06F40/289;G06F40/30 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 目标 情感 分析 数据 增强 方法 | ||
本发明公开一种基于目标情感分析数据集的数据增强方法,包括采集目标领域内的数据集;对文本进行分词处理得到对应的单词序列,用全词掩盖方法掩盖待增强文本中的非情感表达的单词与待训练文本中的随机单词;将预处理后的待训练文本输入语言模型BERT进行训练,BERT对文本中每个单词对应的隐藏状态计算其概率分布及损失,相加所有被掩盖单词的损失并把其反向传播更新BERT的参数至模型收敛;把预处理后的待增强文本输入收敛后的BERT中,随机采样单词出现概率作为新目标,用其替换文本中的目标,得到增强后的新样本。本发明能预测出更符合语境的单词,从而得到基于目标情感分析任务的数据增强后的新样本。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于目标情感分析数据集的数据增强方法。
背景技术
在自然语言数据处理领域,有人提出基于上下文的数据增强方法是给定需要进行替换的单词对应的上下文,它使用一个语言模型去预测一个新的单词用于替换,通过使用一个双向的长短期记忆网络来构建语言模型,把目标单词两边位置经过双向长短期记忆网络后的输出进行拼接,并让其经过前馈神经网络,用Softmax函数来得到目标位置的单词在词典上的概率分布,最后根据给定的概率视乎需要从整个词典或前若干个最可能的词范围中随机抽样得到最终预测出的词,替换掉原本的单词来生成新的样本。传统的语言模型在对单词进行预测时,本身不会带有特定的情感倾向,这会有新样本的标签被改变的危险。为了保证产生的新样本不会改变原样本的标签,把传统的语言模型转化为“基于标签的语言模型,在双向语言模型的前馈神经网络层中拼接上样本标签的嵌入,使得输出的单词能同时考虑上下文信息和标签信息。如此,语言模型预测出的词就能带有标签相对应的情感信息,保证了新样本的标签不会改变。为了保证语言模型的质量,论文先在一个较大的语料数据集上不使用标签信息来进行双向长短期记忆网络语言模型的预训练,然后才在具体的有标签数据集上使用标签信息继续进行训练。
这个方法在对语言模型进行建模的时候,主要使用了双向长短期记忆网络。使用这种网络主要有四个缺点:其一是长短期记忆网络在处理较长的输入时依然无法保证信息的长期保存,距离较远的信息可能无法被较好地编码;其二是双向长短期记忆网络在本质上还是两个不同方向的单向长短期记忆网络拼接而成的,在建模时不能很好地利用两个方向上的语义信息;其三是长短期记忆网络不能进行并行运算,必须按顺序对输入逐步处理,这使得它的计算效率受到限制;其四是这种网络难以进行多层堆叠,信息抽取能力受限。
还有人提出BERT(Bidirectional Encoder Representations fromTransformers)模型来进行实验文本的数据增强。由于BERT模型主体由多层新的网络结构Transformer堆叠而成,并且在预训练阶段使用了新的预训练任务“掩盖语言模型(MaskedLanguage Model)”,它能够获取到深层的双向语义表示,比传统的语言模型效果好很多,它使用BERT模型作为基础的语言模型,把BERT模型在词嵌入层的“分割嵌入(SegmentEmbedding)”改造成“标签嵌入(Label Embedding)”,用直接相加的形式在词嵌入层就引入标签信息。它先让BERT在更大规模的语料上进行预训练,然后再在有标签的数据集上使用掩盖语言模型任务进行微调直到收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010095397.2/2.html,转载请声明来源钻瓜专利网。