[发明专利]一种基于BERT的中间层改进技术方法在审
申请号: | 202110255573.9 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113095362A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 潘晓光;张娜;焦璐璐;令狐彬;马文芳 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 深圳科润知识产权代理事务所(普通合伙) 44724 | 代理人: | 李小妮 |
地址: | 030000 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 中间层 改进 技术 方法 | ||
本发明属于应用BERT模型的改进技术领域,具体涉及一种基于BERT的中间层改进技术方法,包括如下步骤:数据采集、数据预处理、模型训练微调、对比实验、最优模型保存,所述数据采集采集模型所需的文本数据,并对其类别进行标注,构建模型所需的数据集;所述数据预处理对数据集进行预训练,对于文本数据的前90%进行序列长度为128的迭代,对于后10%进行512序列长度的迭代;所述模型训练微调对模型进行训练微调,维系改进后的网络结构精确度;所述对比实验从不修改网络逐步减少中间层直到没有中间层,记录过程中精准度的变化、参数规模变化以及吞吐量的变化;所述最优模型保存选择保存参数变化最大的和吞吐量最大的模型。
技术领域
本发明属于应用BERT模型的改进技术领域,具体涉及一种基于BERT的中间层改进技术方法。
背景技术
目前BERT作为一种预训练的语言表征模型在诸如阅读理解,自然语言推理和情感分析等各种自然语言处理任务种取得了极大的成功,因为其标准结构为自注意力模块后衔接中间层模块,在BERT的应用中并不会改变这一标准搭配,也就无法研究中间层具体对下游任务的总体网络性能的影响。
存在问题或缺陷的原因:目前BERT在很多自然语言处理的任务中都取得了极大的成功,但一直没有对其标准模型中必不可少的中间层的具体研究,也就无法针对中间层进行BERT的总体网络性能改进。
发明内容
针对上述方法无法研究中间层具体对下游任务的总体网络性能的影响、模型运行效率低等问题,本发明提供了一种显著降低网络复杂度和性能参数冗余从而减少运行模型的成本和硬件性能的需求,且有较高的性价比和运行效率的BERT改进方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于BERT的中间层改进技术方法,包括下列步骤:
S100、数据采集:采集模型所需的文本数据,并对其类别进行标注,构建模型所需的数据集;
S200、数据预处理:数据集进行预训练,对于文本数据的前90%进行序列长度为128的迭代,对于后10%进行512序列长度的迭代;
S300、模型训练微调:对模型进行训练微调,维系改进后的网络结构精确度;
S400、对比实验:从不修改网络逐步减少中间层直到没有中间层,记录过程中精准度的变化、参数规模变化以及吞吐量的变化;
S500、最优模型保存:选择保存参数变化最大的和吞吐量最大的模型。
所述数据采集中,从维基百科的相关公开数据集采集使用的主要数据集,并保证所有中间层个数的实验数据集来源都一致。
所述数据预处理中,将所有变量的初始学习率包括前1%训练的线性热身计划控制为10-4。
所述模型训练微调中,针对不同下游任务的微调需要保证所有变体都使用相同的超参数集,且将模型微调控制发生在对比实验之前。
所述对比实验中,研究n={1,2,3,4…∞}的收敛性和精度结果,选择BERT基准模型作为参考模型。
所述对比实验中,对前六块有12个自注意力机制模块和12个中间层模块网络架构的包含12个按顺序排列的单元的BERT基准模型网络进行修改,对每n个自注意力机制模块移除一个中间层模块,将BERT基准模型网络由原来的12个中间块变为只有6个中间块。
所述最优模型保存中,控制BERT中每个单独的注意头已知专门处理语法的特定方面,且模型的整体语法知识分布在多个注意头上。
所述最优模型保存中,在网络部署到内存和计算资源非常有限的情况下选择最小化网络大小和计算复杂度。
本发明与现有技术相比,具有的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110255573.9/2.html,转载请声明来源钻瓜专利网。