[发明专利]一种面向小型CPU设备的小模型训练方法在审
申请号: | 202110861068.9 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113505614A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 杨迪;毕东 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 小型 cpu 设备 模型 训练 方法 | ||
1.一种面向小型CPU设备的小模型训练方法,其特征在于包括以下步骤:
1)构建训练平行语料及基于注意力机制的神经机器翻译的标准基线模型,利用平行语料生成机器翻译词表,进一步训练得到训练收敛后的模型作为对比的标准基线模型;
2)训练适用于小型CPU设备的小模型作为对比的小模型基线;
3)通过知识精炼方法利用标准基线模型构造双语伪数据;
4)读取小模型基线参数作为改进训练方法后模型的初始化参数,同时使用标准基线模型构造的双语伪数据将标准基线模型中知识迁移到小模型中。
2.按权利要求1所述的面向小型CPU设备的小模型训练方法,其特征在于:步骤1)中,构建训练平行语料及基于注意力机制的神经机器翻译的模型,利用平行语料生成机器翻译词表,进一步训练得到训练收敛后的模型作为对比的标准基线模型;基于注意力机制的神经机器翻译模型包括编码端和解码端,由前馈神经网络模块和注意力模块组成;
前馈神经网络模块计算公式为:
FFN(x)=max(0,xW1+b1)W2+b2
其中,FFN(x)为前馈神经网络模块,x为输入,max为取最大函数,W1和W2为两个线性变换矩阵,b1和b2为两个线性变换的偏置矩阵;
使用注意力机制的计算方式为:
MultiHead(Q,K,V)=concat(head1,head2,...,headh)W°
其中concat为级联操作,MultiHead(Q,K,V)为多头注意力机制,head1,head2,...,headh代表模型中的h个头,其中每个头的注意力计算公式为:
其中SoftMax(·)为归一化函数,Q、K和V分别为参与计算的不同的线性变换矩阵,dk为K矩阵每个头的维度大小。
3.按权利要求1所述的面向小型CPU设备的小模型训练方法,其特征在于:步骤2)中,训练适用于小型CPU设备的小模型作为对比的小模型基线,具体为:
和标准基线模型相比,小模型结构不变,将解码器6层堆叠变为1层。
4.按权利要求1所述的面向小型CPU设备的小模型训练方法,其特征在于:步骤3)中,通过知识精炼方法利用标准基线模型构造双语伪数据,具体为:
用标准基线模型翻译训练数据集得到其所构造的双语伪数据,此双语伪数据中包含标准基线模型知识,作为知识精炼的一种手段。
5.按权利要求1所述的面向小型CPU设备的小模型训练方法,其特征在于:步骤4)中,读取小模型基线参数作为改进训练方法后模型的初始化参数,具体为:
取出小模型基线参数,并将其作为改进训练方法后模型的初始化参数,此参数包含模型知识,作为一种良好的模型初始化状态以及双语伪数据的一种补充手段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110861068.9/1.html,转载请声明来源钻瓜专利网。