[发明专利]语句的翻译方法、装置和存储介质在审
申请号: | 201810805617.9 | 申请日: | 2018-07-18 |
公开(公告)号: | CN109145313A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 杜翠凤 | 申请(专利权)人: | 广州杰赛科技股份有限公司;广州杰赛通信规划设计院有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 梁顺宜;郝传鑫 |
地址: | 510310 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 语句 翻译 目标语言 词语 存储介质 输入词 映射 向量 集合 翻译结果 翻译装置 映射关系 语句翻译 语言翻译 输出 互信息 易读性 有效地 构建 | ||
本发明公开了一种语句的翻译方法,涉及语言翻译领域,包括步骤:提取待翻译语句中的每个词语对应的词向量,以作为输入词向量;基于预先构建的词向量映射,获取每个所述输入词向量在目标语言中对应的词向量,以得到输出词向量的集合;所述词向量映射为根据不同词向量之间的词间相似性、词间互信息和左右熵得到的词向量之间的映射关系;根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句。本发明还提供了语句的翻译装置和存储介质,能有效地将包括惯用词语的待翻译语句翻译成目标语言的语句,提高翻译准确性和翻译结果的易读性。
技术领域
本发明涉及语言翻译领域,尤其涉及一种语句的翻译方法、装置和存储介质。
背景技术
随着全球化的发展,不同文化间的交流愈发密切,语言翻译的要求也越来越高。
在现有技术中,往往是基于不同语言间的词汇关系或语义关系,通过机器学习等方式构建两种语言之间的联系,从而达到翻译的目的。
在实施本发明的过程中,发明人发现,现有的语言翻译技术中,一般是对词语进行翻译并将翻译后的词语组成语句,无法准确地识别出待翻译语句中的惯用词语,例如无法将待翻译语句中的专业术语准确翻译成目标语言中相应的专业术语,导致将所述待翻译语句翻译成所述目标语言中相应的已翻译语句之后,所述已翻译语句的可读性较差,翻译质量不高。
发明内容
本发明实施例的目的是提供一种语句的翻译方法、装置和存储介质,能有效地将包括习惯用语的待翻译语句翻译成目标语言的语句,提高翻译准确性和翻译结果的易读性。
为实现上述目的,本发明实施例提供了一种语句的翻译方法,包括:
提取待翻译语句中的每个词语对应的词向量,以作为输入词向量;
基于预先构建的词向量映射,获取每个所述输入词向量在目标语言中对应的词向量,以得到输出词向量的集合;所述词向量映射为根据不同词向量之间的词间相似性、词间互信息和左右熵得到的词向量之间的映射关系;
根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句。
作为上述方案的改进,所述词向量映射通过如下步骤预先构建:
根据获取到的语料,计算所述语料中每一词语对应的词向量;
计算每两个不同词向量之间的词间相似性、词间互信息和左右熵;
针对任意两个不同词向量,计算所述任意两个不同词向量之间的词间相似性、词间互信息和左右熵的加权计算值,以所述加权计算值作为所述两个词向量之间的相似度;
针对任一词向量,选取与该词向量之间的相似度达到预设要求的词向量,作为该词向量的对应的输出词向量。
作为上述方案的改进,所述计算每两个不同词向量之间的词间相似性、词间互信息和左右熵,在针对任意两个不同的词向量a和词向量b时,还包括:
词向量a和词向量b的词间相似性cos(a,b)满足关系:
词向量a和词向量b的词间互信息PMI(a,b)满足关系:
词向量a和词向量b的左右熵包括左熵和右熵,其中所述左熵EL(a or b)满足关系:
其中,A为词向量a或词向量b的左边相邻的可能的词向量的集合;
所述右熵ER(a or b)满足关系:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州杰赛科技股份有限公司;广州杰赛通信规划设计院有限公司,未经广州杰赛科技股份有限公司;广州杰赛通信规划设计院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810805617.9/2.html,转载请声明来源钻瓜专利网。