[发明专利]一种半监督式通用神经机器翻译模型的构建方法有效
申请号: | 201910806592.9 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110728154B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 陈巍华 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F40/47 | 分类号: | G06F40/47;G06F16/35;G06N3/045;G06N3/0895 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 通用 神经 机器翻译 模型 构建 方法 | ||
1.一种半监督式通用神经机器翻译模型的构建方法,其特征在于,所述半监督式通用神经机器翻译模型的构建方法包括如下步骤:
步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;
步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构;
步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构;
步骤(4),根据经过训练的所述第一网络结构和所述第二网络结构,重新构建新encoder-decoder框架,同时采用所述若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型;
在所述步骤(2)中,构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构具体包括,步骤(201),从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构;
步骤(202),利用sub-word BPE技术对单语语料进行处理,将所述若干单语源语料变换为新的单语源语料;
步骤(203),利用所述新的单语源语料对所述第一网络结构进行关于字词的训练;
在所述步骤(201)中,从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构具体包括,
步骤(2011),确定所述encoder模块与所述原始encoder-decoder框架中的可分离属性;
步骤(2012),若所述可分离属性指示所述encoder模块具有可分离特性,则直接从所述原始encoder-decoder框架中提取得到所述encoder模块,若所述可分离属性指示所述encoder模块不具有可分离特性,则对所述原始encoder-decoder框架进行功能模块分割处理后,再从所述原始encoder-decoder框架中提取得到所述encoder模块;
步骤(2013),将提取得到的所述encoder模块的输出端与所述分类器模块的输入端连接,以此构建得到所述第一网络结构;
在所述步骤(202)中,将所述若干单语源语料变换为新的单语源语料具体包括,
步骤(2021),对所述若干单语源语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第一随机掩模处理,以此获得若干具有掩模态的单语源语料;
步骤(2022),对所述若干具有掩模态的单语源语料中的所有单词和/或词组进行第一记录定位处理,以此确定所述若干具有掩模态的单语源语料对应的语段位置信息;
步骤(2023),判断所述语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语源语料作为所述新的单语源语料;
在所述步骤(203)中,利用所述新的单语源语料对所述第一网络结构进行关于字词的训练具体包括,
步骤(2031),利用所述新的单语源语料中的所有掩模态的单语源语料对所述第一网络结构进行第一循环训练,以此实现对具有掩模态的单词和/或词组的第一预测处理;
步骤(2032),从所述第一预测处理中提取至少一个第一预测结果,并对所述至少一个第一预测结果进行第一词匹配性判断;
步骤(2033),若所述第一词匹配性判断的结果指示所述至少一个第一预测结果与之前被随机掩模处理的单语源语料两者相匹配,则完成所述第一循环训练,否则,继续进行所述第一循环训练,直到两者相匹配为止;
在所述步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构具体包括,
步骤(301),从原始encoder-decoder框架中提取得到所述decoder模块,并结合所述分类器模块构建得到所述第二网络结构;
步骤(302),将所述若干单语目标语料变换为新的单语目标语料;
步骤(303),利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练;
在所述步骤(301)中,从原始encoder-decoder框架中提取得到所述decoder模块,并结合所述分类器模块构建得到所述第二网络结构具体包括,
步骤(3011),确定所述decoder模块与所述原始encoder-decoder框架中的可分离属性;
步骤(3012),若所述可分离属性指示所述decoder模块具有可分离特性,则直接从所述原始encoder-decoder框架中提取得到所述decoder模块,若所述可分离属性指示所述decoder模块不具有可分离特性,则对所述原始encoder-decoder框架进行功能模块分割处理后,再从所述原始encoder-decoder框架中提取得到所述decoder模块;
步骤(3013),将提取得到的所述decoder模块的输出端与所述分类器模块的输入端连接,以此构建得到所述第二网络结构;
在所述步骤(302)中,将所述若干单语目标语料变换为新的单语目标语料具体包括,
步骤(3021),对所述若干单语目标语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第二随机掩模处理,以此获得若干具有掩模态的单语目标语料;
步骤(3022),对所述若干具有掩模态的单语目标语料中的所有单词和/或词组进行第二记录定位处理,以此确定所述若干具有掩模态的单语目标语料对应的语段位置信息;
步骤(3023),判断所述语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语目标语料作为所述新的单语目标语料;在所述步骤(303)中,利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练具体包括,
步骤(3031),利用所述新的单语目标语料中的所有掩模态的单语目标语料对所述第二网络结构进行第二循环训练,以此实现对具有掩模态的单词和/或词组的第二预测处理;
步骤(3032),从所述第二预测处理中提取至少一个第二预测结果,并对所述至少一个第二预测结果进行第二词匹配性判断;
步骤(3033),若所述第二词匹配性判断的结果指示所述至少一个第二预测结果与之前被随机掩模处理的单语目标语料两者相匹配,则完成所述第二循环训练,否则,继续进行所述第二循环训练,直到两者相匹配为止;
在所述步骤(4)中,根据经过训练的所述第一网络结构和所述第二网络结构,重新构建新encoder-decoder框架,同时采用所述若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型具体包括,
步骤(401),获取经过训练的所述第一网络结构中encoder模块的encoder参数和经过训练的所述第二网络结构中decoder模块的decoder参数;
步骤(402),将所述encoder参数和所述decoder参数迁移至原始encoder-decoder框架中;
步骤(403),利用所述若干平行双语语料以及通过精调模式对所述原始encoder-decoder框架进行训练处理,以此构建得到所述通用神经机器翻译模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910806592.9/1.html,转载请声明来源钻瓜专利网。