[发明专利]语句的翻译方法、装置和存储介质在审
申请号: | 201810805617.9 | 申请日: | 2018-07-18 |
公开(公告)号: | CN109145313A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 杜翠凤 | 申请(专利权)人: | 广州杰赛科技股份有限公司;广州杰赛通信规划设计院有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 梁顺宜;郝传鑫 |
地址: | 510310 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 语句 翻译 目标语言 词语 存储介质 输入词 映射 向量 集合 翻译结果 翻译装置 映射关系 语句翻译 语言翻译 输出 互信息 易读性 有效地 构建 | ||
1.一种语句的翻译方法,其特征在于,包括:
提取待翻译语句中的每个词语对应的词向量,以作为输入词向量;
基于预先构建的词向量映射,获取每个所述输入词向量在目标语言中对应的词向量,以得到输出词向量的集合;所述词向量映射为根据不同词向量之间的词间相似性、词间互信息和左右熵得到的词向量之间的映射关系;
根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句。
2.如权利要求1所述的语句的翻译方法,其特征在于,所述词向量映射通过如下步骤预先构建:
根据获取到的语料,计算所述语料中每一词语对应的词向量;
计算每两个不同词向量之间的词间相似性、词间互信息和左右熵;
针对任意两个不同词向量,计算所述任意两个不同词向量之间的词间相似性、词间互信息和左右熵的加权计算值,以所述加权计算值作为所述两个词向量之间的相似度;
针对任一词向量,选取与该词向量之间的相似度达到预设要求的词向量,作为该词向量的对应的输出词向量。
3.如权利要求2所述的语句的翻译方法,其特征在于,所述计算每两个不同词向量之间的词间相似性、词间互信息和左右熵,在针对任意两个不同的词向量a和词向量b时,还包括:
词向量a和词向量b的词间相似性cos(a,b)满足关系:
词向量a和词向量b的词间互信息PMI(a,b)满足关系:
词向量a和词向量b的左右熵包括左熵和右熵,其中所述左熵EL(a or b)满足关系:
其中,A为词向量a或词向量b的左边相邻的可能的词向量的集合;
所述右熵ER(a or b)满足关系:
其中,B为词向量a或词向量b的右边相邻的可能的词向量的集合。
4.如权利要求3所述的语句的翻译方法,其特征在于,所述针对任意两个不同词向量,计算所述任意两个不同词向量之间的词间相似性、词间互信息和左右熵的加权计算值,以所述加权计算值作为所述两个词向量之间的相似度,在针对所述任意两个不同的词向量a和词向量b时,还包括:
词向量a和词向量b的相似度sim满足关系:
sim=α1cos(a,b)+α2PMI(a,b)+α3EL(a or b)+α4ER(a or b)
其中,α1、α2、α3和α4均为常数。
5.如权利要求4所述的语句的翻译方法,其特征在于,所述α1、α2、α3和α4均为大于或等于0、且小于或等于1的常数。
6.如权利要求2所述的语句的翻译方法,其特征在于,所述针对任一词向量,选取与该词向量之间的相似度达到预设要求的词向量,作为该词向量的对应的输出词向量,包括:
针对任一词向量,选取与该词向量之间的相似度最高的前五个词向量,作为该词向量对应的输出词向量。
7.如权利要求1所述的语句的翻译方法,其特征在于,所述根据所述输出词向量的集合,从所述目标语言中获取相应的词语并组成所述待翻译语句对应的已翻译语句,包括:
根据所述输出词向量的集合中的输出词向量,获取所述目标语言中的相应的词语作为备选词语;
选取多个所述备选词语进行排列,得到备选短语;
将所述备选短语的词向量与待翻译语句中相应词语组合的词向量进行词间相似性分析,并以相似性最高的备选短语作为所述相应词语组合的已翻译短语;
将得到的所述已翻译短语进行组合,以得到所述待翻译语句对应的已翻译语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州杰赛科技股份有限公司;广州杰赛通信规划设计院有限公司,未经广州杰赛科技股份有限公司;广州杰赛通信规划设计院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810805617.9/1.html,转载请声明来源钻瓜专利网。