[发明专利]一种语句的翻译方法、装置、电子设备和存储介质在审
| 申请号: | 202211157770.8 | 申请日: | 2022-09-22 |
| 公开(公告)号: | CN115618885A | 公开(公告)日: | 2023-01-17 |
| 发明(设计)人: | 关玉洋;邢启洲;李健;陈明;武卫东 | 申请(专利权)人: | 无锡捷通数智科技有限公司 |
| 主分类号: | G06F40/42 | 分类号: | G06F40/42;G06N20/00 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
| 地址: | 214125 江苏省无锡市无锡经济开发区太*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语句 翻译 方法 装置 电子设备 存储 介质 | ||
本发明实施例提供了一种语句的翻译方法、装置、电子设备和存储介质,该方法包括:在接收到待翻译的语句后,可以将待翻译的语句输入预设的第一模型中进行预测,并获取第一模型输出的针对待翻译的语句的目标语句。其中,第一模型是通过预设的平行语料训练得到的,用于进行语句的翻译;预设的平行语料中的对齐信息是由第二模型确定的,第二模型为一跨语言模型。通过本发明实施例,实现了基于跨语言模型来对齐训练专有词翻译模型时使用的平行语料中的词汇;相对于FastAlign模型来说,跨语言模型并不依赖于平行语料,从而降低了训练专有词翻译模型的投入成本。且相对于FastAlign模型来说,跨语言模型不依赖于平行语料的对齐情况,保证了所生成的对齐信息的准确性。
技术领域
本发明涉及翻译的技术领域,特别是涉及一种语句的翻译方法、装置、电子设备和存储介质。
背景技术
在全球化与信息时代的大背景下,翻译工作的意义重大。随着翻译工作量的日益增多,翻译模型应运而生。与人工翻译相比,翻译模型的效率更高,得到了更为广泛的应用。
针对语句的翻译,可以采用专有词汇翻译模型,专有词翻译模型在翻译语句时,可以按照指定的专有词翻译形式翻译句子中出现的专有词。
对于现有的专有词翻译模型来说,其模型训练是依赖于FastAlign模型对平行语料的处理;即,需要先由FastAlign对平行语料进行识别,以得到其中的对齐信息,例如:“中国”与“China”为一对对齐信息。然后,专有词翻译模型再基于对齐信息和平行语料来进行训练。
FastAlign模型在训练时是依赖于平行语料的数量的;当平行语料的数量较少时,可能会影响到FastAlign模型的效果;而平行语料的获取成本较高,为了保证FastAlign模型的效果,以保证专有词翻译模型的效果,可能需要投入较多的成本来获取用于训练的平行语料。
且FastAlign模型是基于平行语料进行的训练;当平行语料中的词的对齐情况较差时,可能导致FastAlign模型所生成的对齐信息的对齐情况也较差。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种语句的翻译方法、装置、电子设备和存储介质,包括:
一种语句的翻译方法,所述方法包括:
接收待翻译的语句;
将所述待翻译的语句输入预设的第一模型中;所述第一模型是通过预设的平行语料训练得到的,用于进行语句的翻译;所述预设的平行语料中包括对齐信息,所述对齐信息由第二模型确定的,所述第二模型为一跨语言模型;
获取所述第一模型输出的针对所述待翻译的语句的目标语句。
可选地,所述方法还包括:
获取平行语料,并将所述平行语料输入所述第二模型中;
获取所述第二模型输出的对齐信息,并将所述对齐信息添加至所述平行语料中,得到所述预设的平行语料;
根据所述预设的平行语料,对所述第一模型进行训练。
可选地,所述平行语料包括第一语种的第一语句和第二语种的第二语句,所述将所述对齐信息添加至所述平行语料中,得到所述预设的平行语料。包括:
将所述对齐信息添加至所述第一语句中;
根据添加了所述对齐信息的第一语句和所述第二语句,生成所述预设的平行语料。
可选地,所述根据所述预设的平行语料,对所述第一模型进行训练,包括:
将添加了所述对齐信息的第一语句作为训练输入数据,以及将所述第二语句作为训练输出数据;
根据所述训练输入数据和所述训练输出数据,对所述第一模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡捷通数智科技有限公司,未经无锡捷通数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211157770.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双面压纹装置
- 下一篇:一种抄表方法、抄表装置及抄表系统





