[发明专利]一种基于BERT的中间层改进技术方法在审

申请号：	202110255573.9	申请日：	2021-03-09
公开（公告）号：	CN113095362A	公开（公告）日：	2021-07-09
发明（设计）人：	潘晓光;张娜;焦璐璐;令狐彬;马文芳	申请（专利权）人：	山西三友和智慧信息技术股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00
代理公司：	深圳科润知识产权代理事务所(普通合伙) 44724	代理人：	李小妮
地址：	030000 山西省***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bert 中间层改进技术方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于应用BERT模型的改进技术领域，具体涉及一种基于BERT的中间层改进技术方法，包括如下步骤：数据采集、数据预处理、模型训练微调、对比实验、最优模型保存，所述数据采集采集模型所需的文本数据，并对其类别进行标注，构建模型所需的数据集；所述数据预处理对数据集进行预训练，对于文本数据的前90％进行序列长度为128的迭代，对于后10％进行512序列长度的迭代；所述模型训练微调对模型进行训练微调，维系改进后的网络结构精确度；所述对比实验从不修改网络逐步减少中间层直到没有中间层，记录过程中精准度的变化、参数规模变化以及吞吐量的变化；所述最优模型保存选择保存参数变化最大的和吞吐量最大的模型。

技术领域

本发明属于应用BERT模型的改进技术领域，具体涉及一种基于BERT的中间层改进技术方法。

背景技术

目前BERT作为一种预训练的语言表征模型在诸如阅读理解，自然语言推理和情感分析等各种自然语言处理任务种取得了极大的成功，因为其标准结构为自注意力模块后衔接中间层模块，在BERT的应用中并不会改变这一标准搭配，也就无法研究中间层具体对下游任务的总体网络性能的影响。

存在问题或缺陷的原因：目前BERT在很多自然语言处理的任务中都取得了极大的成功，但一直没有对其标准模型中必不可少的中间层的具体研究，也就无法针对中间层进行BERT的总体网络性能改进。

发明内容

针对上述方法无法研究中间层具体对下游任务的总体网络性能的影响、模型运行效率低等问题，本发明提供了一种显著降低网络复杂度和性能参数冗余从而减少运行模型的成本和硬件性能的需求，且有较高的性价比和运行效率的BERT改进方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于BERT的中间层改进技术方法，包括下列步骤：

S100、数据采集：采集模型所需的文本数据，并对其类别进行标注，构建模型所需的数据集；

S200、数据预处理：数据集进行预训练，对于文本数据的前90％进行序列长度为128的迭代，对于后10％进行512序列长度的迭代；

S300、模型训练微调：对模型进行训练微调，维系改进后的网络结构精确度；