[发明专利]一种基于提示学习的领域自适应方法在审
申请号: | 202210555187.6 | 申请日: | 2022-05-19 |
公开(公告)号: | CN114817550A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 李云;沈辉;朱毅;强继朋;袁运浩 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 董旭东;季雯 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 提示 学习 领域 自适应 方法 | ||
本发明公开了一种基于提示学习的领域自适应方法,包括以下步骤:1)选择Bert模型,将该预训练语言模型作为主干,对提示学习方法中的模板和标签词进行设置;2)构造出所需要的提示学习模型,对于数据集,运用提示学习数据加载函数对数据进行加载和处理,之后进行领域自适应任务;3)随机选取少量源域数据样本进行训练,之后将目标域的句子嵌入到同样的模板中,通过预训练语言模型进行掩码语言建模,对输入的目标域句子进行分类预测。本发明利用提示学习的方法,可以解决源域和目标域中语义特征结构的扭曲和类别可辨别性的丢失,在少量源域数据样本的前提下,能够在目标域分类任务中达到更好的准确度。
技术领域
本发明涉及迁移学习研究领域,特别涉及一种基于提示学习的领域自适应方法。
背景技术
传统机器学习假设训练数据和测试数据都是独立同分布的,但真实应用场景下不同领域中的数据是不同但又彼此相似的,为了解决这个问题,近年来,领域自适应的研究得到了广泛关注,其主要思想是将在标记的源域上训练出来的模型自适应到未标记的目标域中,旨在同一特征空间里提取源域和目标域全局特征表示,以此来减少不同领域之间的分布差异。就所采用的技术而言,领域自适应的方法可主要分为浅层学习方法和深度学习方法。
基于浅层学习的领域自适应方法多是基于统计模型的方法,该类方法能在准确性和稳定性上都取得较好的表现。然而,现有的基于浅层学习的方法,在跨领域的特征表示学习中仍然效果不佳,从而导致领域自适应的性能结果受到影响。
近年来,由于深度学习方法具有优异的特征学习能力,能够将源域和目标域的特征表示映射到同一新的特征空间中,因此,已在领域自适应领域中得到了广泛的应用。然而,现有的深度神经网络需要大量的有标签或无标签的训练数据以优化网络和模型,而现实应用场景中获取大量训练数据往往是非常困难的。
发明内容
本发明的目的是克服现有技术缺陷,提供一种基于提示学习的领域自适应方法,使用模板提示将输入句子嵌入进去,通过预训练语言模型,可以将目标域分类任务转化为标签词的概率计算问题,为领域自适应分类任务进行更准确的分类。
本发明的目的是这样实现的:一种基于提示学习的领域自适应方法,包括以下步骤:
1)选择Bert模型,将该预训练语言模型作为主干,对提示学习方法中的模板和标签词进行设置;
2)构造出所需要的提示学习模型,对于数据集,运用提示学习数据加载函数对数据进行加载和处理,之后进行领域自适应任务;
3)随机选取少量源域数据样本进行训练,之后将目标域的句子嵌入到同样的模板中,通过预训练语言模型进行掩码语言建模,对输入的目标域句子进行分类预测。
进一步的,所述步骤1)具体包括:
步骤1.1)选择预训练语言模型Bert作为主干;
步骤1.2)模板设置,模板为修改原有的输入,根据不同数据集的内容来手动设置不同的模板,将原始输入进行修改和封装,对于每个实例x,首先使用模板将x映射到提示输入xprompt=T(x);
步骤1.3)标签词的设置:将原始标签投影到一组标签词中,存在一个单射映射函数Y→V,它连接了类集和标签词集,根据原始标签,映射一组跟其意思接近的标签词。
进一步的,所述步骤2)具体包括:
步骤2.1)构造提示学习模型,调用openprompt第三方库中的提示学习分类函数,所述提示学习分类函数包括三个参数,分别是预训练语言模型、模板、标签词,将步骤1)中得到三个变量分别赋予进去,从而可以得到提示模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210555187.6/2.html,转载请声明来源钻瓜专利网。