[发明专利]一种基于BERT的中间层改进技术方法在审
| 申请号: | 202110255573.9 | 申请日: | 2021-03-09 |
| 公开(公告)号: | CN113095362A | 公开(公告)日: | 2021-07-09 |
| 发明(设计)人: | 潘晓光;张娜;焦璐璐;令狐彬;马文芳 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
| 代理公司: | 深圳科润知识产权代理事务所(普通合伙) 44724 | 代理人: | 李小妮 |
| 地址: | 030000 山西省*** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bert 中间层 改进 技术 方法 | ||
1.一种基于BERT的中间层改进技术方法,其特征在于:包括下列步骤:
S100、数据采集:采集模型所需的文本数据,并对其类别进行标注,构建模型所需的数据集;
S200、数据预处理:数据集进行预训练,对于文本数据的前90%进行序列长度为128的迭代,对于后10%进行512序列长度的迭代;
S300、模型训练微调:对模型进行训练微调,维系改进后的网络结构精确度;
S400、对比实验:从不修改网络逐步减少中间层直到没有中间层,记录过程中精准度的变化、参数规模变化以及吞吐量的变化;
S500、最优模型保存:选择保存参数变化最大的和吞吐量最大的模型。
2.根据权利要求1所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S100数据采集中,从维基百科的相关公开数据集采集使用的主要数据集,并保证所有中间层个数的实验数据集来源都一致。
3.根据权利要求2所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S200数据预处理中,将所有变量的初始学习率包括前1%训练的线性热身计划控制为10-4。
4.根据权利要求3所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S300模型训练微调中,针对不同下游任务的微调需要保证所有变体都使用相同的超参数集,且将模型微调控制发生在对比实验之前。
5.根据权利要求4所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S400对比实验中,研究n={1,2,3,4…∞}的收敛性和精度结果,选择BERT基准模型作为参考模型。
6.根据权利要求5所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S400对比实验中,对前六块有12个自注意力机制模块和12个中间层模块网络架构的包含12个按顺序排列的单元的BERT基准模型网络进行修改,对每n个自注意力机制模块移除一个中间层模块,将BERT基准模型网络由原来的12个中间块变为只有6个中间块。
7.根据权利要求6所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S500最优模型保存中,控制BERT中每个单独的注意头已知专门处理语法的特定方面,且模型的整体语法知识分布在多个注意头上。
8.根据权利要求7所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S500最优模型保存中,在网络部署到内存和计算资源非常有限的情况下选择最小化网络大小和计算复杂度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110255573.9/1.html,转载请声明来源钻瓜专利网。





