[发明专利]神经网络语言模型压缩方法及系统在审
| 申请号: | 201811518662.2 | 申请日: | 2018-12-12 |
| 公开(公告)号: | CN109448706A | 公开(公告)日: | 2019-03-08 |
| 发明(设计)人: | 俞凯;刘奇;马娆 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;车江华 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 嵌入层 投影层 隐藏层 模型压缩 语言模型 神经 输出 嵌入式系统 文本语料库 便携设备 存储空间 矩阵配置 权重矩阵 参数权 词汇表 二值化 减小 应用 压缩 | ||
1.一种神经网络语言模型压缩方法,所述神经网络语言模型包括输入嵌入层、隐藏层和输出嵌入层,所述方法包括:
在所述输入嵌入层与所述隐藏层之间设置第一投影层;
在所述隐藏层和所述输出嵌入层之间设置第二投影层;
分别将所述输入嵌入层、第一投影层、隐藏层、第二投影层和输出嵌入层的参数权重矩阵配置为二值化权重矩阵,以构成压缩后的神经网络语言模型。
2.根据权利要求1所述的方法,其中,还包括:
预先训练所述神经网络语言模型作为教师模型;
将所述压缩后的神经网络语言模型作为学生模型;
将训练数据输入所述教师模型以得到所述教师模型在词表上的概率分布;
将所述概率分布和对应于所述训练数据的预测标签的独热向量的插值确定为所述学生模型的训练目标;
以所述训练数据作为所述学生模型的输入来训练所述学生模型。
3.根据权利要求1所述的方法,其中,所述神经网络语言模型为前馈神经网络模型或者循环神经网络模型。
4.根据权利要求1所述的方法,其中,所述神经网络语言模型为LSTM语言模型。
5.一种神经网络语言模型压缩系统,所述神经网络语言模型包括输入嵌入层、隐藏层和输出嵌入层,所述系统包括:
第一设置模块,用于在所述输入嵌入层与所述隐藏层之间设置第一投影层;
第二设置模块,用于在所述隐藏层和所述输出嵌入层之间设置第二投影层;
权重矩阵配置模块,用于分别将所述输入嵌入层、第一投影层、隐藏层、第二投影层和输出嵌入层的参数权重矩阵配置为二值化权重矩阵,以构成压缩后的神经网络语言模型。
6.根据权利要求5所述的系统,其中,还包括:
第一训练模块,用于预先训练所述神经网络语言模型作为教师模型;
配置模块,用于将所述压缩后的神经网络语言模型作为学生模型;
概率分布确定模块,用于将训练数据输入所述教师模型以得到所述教师模型在词表上的概率分布;
训练目标确定模块,用于将所述概率分布和对应于所述训练数据的预测标签的插值确定为所述学生模型的训练目标;
第二训练模块,用于以所述训练数据作为所述学生模型的输入来训练所述学生模型。
7.根据权利要求5所述的系统,其中,所述神经网络语言模型为前馈神经网络模型或者循环神经网络模型。
8.根据权利要求5所述的系统,其中,所述神经网络语言模型为LSTM语言模型。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任意一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811518662.2/1.html,转载请声明来源钻瓜专利网。





