[发明专利]一种面向小型CPU设备的小模型训练方法在审

申请号：	202110861068.9	申请日：	2021-07-29
公开（公告）号：	CN113505614A	公开（公告）日：	2021-10-15
发明（设计）人：	杨迪;毕东	申请（专利权）人：	沈阳雅译网络技术有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06N3/04;G06N3/063;G06N3/08
代理公司：	沈阳新科知识产权代理事务所(特殊普通合伙) 21117	代理人：	李晓光
地址：	110004 辽宁省沈阳市***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向小型 cpu 设备模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向小型CPU设备的小模型训练方法，其特征在于包括以下步骤：

1)构建训练平行语料及基于注意力机制的神经机器翻译的标准基线模型，利用平行语料生成机器翻译词表，进一步训练得到训练收敛后的模型作为对比的标准基线模型；

2)训练适用于小型CPU设备的小模型作为对比的小模型基线；

3)通过知识精炼方法利用标准基线模型构造双语伪数据；

4)读取小模型基线参数作为改进训练方法后模型的初始化参数，同时使用标准基线模型构造的双语伪数据将标准基线模型中知识迁移到小模型中。

2.按权利要求1所述的面向小型CPU设备的小模型训练方法，其特征在于：步骤1)中，构建训练平行语料及基于注意力机制的神经机器翻译的模型，利用平行语料生成机器翻译词表，进一步训练得到训练收敛后的模型作为对比的标准基线模型；基于注意力机制的神经机器翻译模型包括编码端和解码端，由前馈神经网络模块和注意力模块组成；

前馈神经网络模块计算公式为：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中，FFN(x)为前馈神经网络模块，x为输入，max为取最大函数，W₁和W₂为两个线性变换矩阵，b₁和b₂为两个线性变换的偏置矩阵；

使用注意力机制的计算方式为：

MultiHead(Q,K,V)＝concat(head₁,head₂,...,head_h)W°

其中concat为级联操作，MultiHead(Q，K，V)为多头注意力机制，head₁，head₂，...，head_h代表模型中的h个头，其中每个头的注意力计算公式为：

其中SoftMax(·)为归一化函数，Q、K和V分别为参与计算的不同的线性变换矩阵，d_k为K矩阵每个头的维度大小。

3.按权利要求1所述的面向小型CPU设备的小模型训练方法，其特征在于：步骤2)中，训练适用于小型CPU设备的小模型作为对比的小模型基线，具体为：

和标准基线模型相比，小模型结构不变，将解码器6层堆叠变为1层。

4.按权利要求1所述的面向小型CPU设备的小模型训练方法，其特征在于：步骤3)中，通过知识精炼方法利用标准基线模型构造双语伪数据，具体为：

用标准基线模型翻译训练数据集得到其所构造的双语伪数据，此双语伪数据中包含标准基线模型知识，作为知识精炼的一种手段。

5.按权利要求1所述的面向小型CPU设备的小模型训练方法，其特征在于：步骤4)中，读取小模型基线参数作为改进训练方法后模型的初始化参数，具体为：