[发明专利]利用同源词的日中机器翻译方法和系统在审
申请号: | 202111262328.7 | 申请日: | 2021-10-28 |
公开(公告)号: | CN114169345A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 李泽中;任福继;孙晓 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/45;G06F40/56;G06F40/242;G06F40/289 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 同源 日中 机器翻译 方法 系统 | ||
本发明提供一种利用同源词的日中机器翻译方法、系统、存储介质和电子设备,涉及机器翻译技术领域。本发明将存在汉语同源词的日语词语转化为对应的同源词字形,获取所述同源词字形在共享词典下的词向量表示,记作公有表示,以及获取所当前词语在日语词典下的词向量表示,记作私有表示,合并所述公有表示和私有表示作为当前词语最终的词向量表示。通过利用同源汉字得到中日同源词,扩大了双语间共享的词语数量,且在神经机器翻译中利用共享词嵌入方法,得到更一致的双语语义对齐,从理论上有利于最终翻译效果的提升;此外,存在汉语同源词的日语词语采用公有‑私有表示的方法,可以建模日语中同源词语义上偏离其原先语义的语言现象。
技术领域
本发明涉及机器翻译技术领域,具体涉及一种利用同源词的日中机器翻译方法、系统、存储介质和电子设备。
背景技术
机器翻译是指利用计算机自动实现把一种自然语言翻译成另一种自然语言的技术,如汉语翻译成英语。自基于噪音信道的机器翻译建模思想提出后,研究人员就开始致力于各种语言的机器翻译系统的研究。近年来随着深度学习的发展,基于深度神经网络的机器翻译已经成为当今的主流技术,无论在工业界还是学术界都取得了巨大的成功。
在神经机器翻译中,翻译的过程可以由编码器-解码器(Encoder-Decoder)框架实现。其中,编码器把源语言句子进行编码,并提取源语言中的信息进行分布式表示,之后解码器再把这种信息生成为目标语言的句子。编码器和解码器可以分别采用不同的模型结构,近些年机器翻译的发展也大部分表现为这些模型结构的改进更迭,最为代表性的是基于RNN,CNN和Transformer的模型。其中,Transformer其主要结构可概括为“多层多头自注意力”。Transformer不依赖任何循环单元或者卷积单元,而是使用一种被称作自注意力网络的结构来对序列进行表示。自注意力机制可以非常高效的描述任意距离之间的依赖关系,在已经成为了机器翻译中最先进的架构之一。
但是尽管以上基于RNN,CNN和Transformer这些神经网络的机器翻译取得了很好的效果,但是当今研究的重点在于以英语为中心的机器翻译方向,即以英语作为源语言或者目标语言的机器翻译。针对源语言和目标语言都是非英语的机器翻译,如中日机器翻译缺少有针对性的优化,没有利用这些语言特有的语言学知识。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种利用同源词的日中机器翻译方法、系统、存储介质和电子设备,解决了现有中日机器翻译技翻译效果有限的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种利用同源词的日中机器翻译方法,包括:
S1、获取并分词处理日语源句,获取所述日语源句对应的词语序列;
S2、根据预先获取的同源词典,逐一判断所述词语序列中的每个词语是否存在汉语同源词;若存在,将当前词语转化为对应的同源词字形,并转入S3;否则,转入S4;
S3、获取所述同源词字形在共享词典下的词向量表示,记作公有表示,以及获取当前词语在日语词典下的词向量表示,记作私有表示,合并所述公有表示和私有表示作为当前词语最终的词向量表示;所述共享词典是指源语言和目标语言共享同一词嵌入矩阵;
S4、获取当前词语在所述共享词典下的词向量表示,并作为当前词语最终的词向量表示;
S5、根据每个词语最终的词向量表示,获取所述日语源句的完整词向量表示;
S6、将所述完整日语源句的词向量表示输入Transformer模型中,获取对应的中文目标语句。
优选的,所述S2中的同源词典构建过程包括同源词挖掘,所述同源词挖掘包括同源汉字映射和同源词映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111262328.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑精细化测绘电子矢量系统及方法
- 下一篇:数据管理方法及装置