[发明专利]一种基于BERT-base网络的带噪半监督文本分类方法在审
申请号: | 202011593101.6 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112597766A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 任子扬;姚英彪;徐欣;李沛;刘兆霆;冯维 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert base 网络 带噪半 监督 文本 分类 方法 | ||
本发明公开了一种基于BERT‑base网络的带噪半监督文本分类方法。本发明步骤:S1、用模型对无标签样本经回译后产生的新样本做出预测并构造预测标签;S2、将带标签和无标签样本再次输入模型后,在BERT中特定Transformer隐藏层做扰动和插值处理,最终得到插值模型输出;S3、构造损失函数loss=ls+lsce,第一项为针对带标签样本的交叉熵,第二项为插值标签与插值模型输出的对称交叉熵;S4、训练更新模型参数;S5、用训练好的模型对新样本进行预测分类。本发明将带噪学习领域的对称交叉熵和插值方法融合,使得带标签和无标签样本协同训练的同时,降低了标签预测过程中模型误判的影响,减少了训练过程中带标签数据的过拟合现象。
技术领域
本发明应用于自然语言处理(NLP)领域,具体涉及一种基于BERT-base网络的带噪半监督文本分类方法。
背景技术
随着通信、互联网技术的发展,数据已经成为了一种工业原材料,如何挖掘并利用隐藏在数据中的信息已经形成多个产业并且创造了巨大的经济效益。文本数据因为由人的直接表达生成,故产生成本最低,数量最大,包含信息也最为丰富。
在文本数据的众多应用中,分类是一个基础性工作。传统文本分类一般基于带标签数据做监督学习,但在实际的特定工业场景中,数据大多为无标签的原始数据,数据的标注可能需要耗费大量的人力资源,且人工标注的标签质量如何也值得怀疑,实际情况下甚至可能出现“训练数据越多,训练效果越差”的情况。故仅利用少量带标签数据和大量无标签数据的半监督学习方法就成为更加实际且低成本的选择。
目前的半监督学习大多应用于图像分类,近几年的主流方法都利用了一致性正则和最小化熵的思想。一方面,若对数据输入添加噪声,一个鲁棒的模型的输出应该是相似的;另一方面,模型在无标签数据上的熵应该尽可能最小化。无标签数据通过一次或数次增强后输入模型,用模型的较低熵输出作为其预测标签。与此同时,将该无标签数据用另一种方式扰动之后输入模型,此时模型的输出应该和刚刚得到的人工标签存在相似性。衡量“较低熵”的方法一般是看模型输出的概率分布中的最大概率是否超过某个阈值。如何衡量“相似性”则取决于选择何种损失函数,一般的选择有KL散度、交叉熵、L2正则等。但在文本半监督分类中有两方面的问题。一方面,如何将图像半监督分类中的一致性正则和最小化熵的思想应用于文本处理之中。对图像进行旋转、镜像、转换灰度等简单操作就可以在样本标签不变的条件下实现数据增强。然而在NLP中,文本数据具有一定离散特性,很难通过简单的转换来生成大量语义不变的扩充样本。尤其是短文本中,对部分词语的改动很可能直接改变整体语义,故直接在词向量上添加扰动并非最佳选择。另一方面,通过设定概率阈值来判断模型的输出的置信度,这种方法较为简单而直接,但在实际操作中的问题在于:由于阈值的存在,无标签数据可能会在模型训练中期甚至后期才会加入,而此时那些早已参与训练的少量带标签数据可能已经过拟合,用过拟合的模型去预测数据的标签,这种预测势必包含错误判断,且这种错误并非均匀分散的随机噪声,而是模型“死读书”之后产出的系统性噪声。故如何处理带标签和无标签数据的协同训练,如何处理模型预测中的噪声也是个问题。
发明内容
本发明提供一种基于BERT-base(BERT是一种基于Transformer架构的双向编码器)的带噪半监督文本分类方法,它对无标签样本通过回译方法产生新样本,然后通过模型预测将置信度较高的预测结果作为该新样本的预测标签;训练过程中,采用插值方法将带标签样本和无标签样本协同训练,并用梯度上升方法对无标签样本在模型中第3隐层的输出向量添加扰动,最后用改进的损失函数提高模型对于其预测标签中噪声的鲁棒性。
为实现上述目的,本发明采用的技术方案步骤如下:
S1、数据初始化阶段。将无标签样本做回译操作并产生新样本,然后将新样本输入模型,最后将其中高置信度的输出向量转化为对应one-hot标签。具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011593101.6/2.html,转载请声明来源钻瓜专利网。