[发明专利]一种机器翻译方法、装置和机器翻译系统训练方法、装置在审
| 申请号: | 201611035439.3 | 申请日: | 2016-11-16 |
| 公开(公告)号: | CN108073573A | 公开(公告)日: | 2018-05-25 |
| 发明(设计)人: | 程善伯;王宇光;姜里羊;陈伟;王砚峰 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 原始字符串 命名实体 实体类别 机器翻译 目标字符 字符串 标签 机器翻译系统 目标字符串 字符串翻译 翻译 标签匹配 标签替换 接收输入 目标语言 字符翻译 映射表 源语言 预置 替换 查找 | ||
本发明实施例提供了一种机器翻译方法。所述方法包括:接收输入的源语言的原始字符串,原始字符串包括命名实体字符和非命名实体字符,命名实体字符具有所属的实体类别标签;将原始字符串翻译为中间字符串,具体包括:采用实体类别标签替换原始字符串中对应的命名实体字符,将原始字符串中的非命名实体字符翻译成目标语言的字符;将中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与命名实体字符及对应的实体类别标签匹配的目标字符,采用目标字符对应替换所述中间字符串中的实体类别标签。根据本发明可以提升翻译质量。
技术领域
本发明涉及语言处理技术领域,特别是涉及一种机器翻译方法和装置,一种机器翻译系统训练方法和装置,以及,一种用于机器翻译的装置和一种用于机器翻译系统训练的装置。
背景技术
目前,全球化的发展带来在多种语言之间进行机器翻译(Machine Translate)的迫切需求。其中,由于神经机器翻译系统构建简便和翻译质量好的优点,通过神经机器翻译系统进行机器翻译成为主流。
但是,神经机器翻译系统对计算设备较高的要求以及其系统框架,决定了翻译词表的规模与机器翻译的效率、机器训练的效率成反比。因此,为了保证机器翻译的时效性,无可避免地对翻译词表的规模进行限制,从而导致难以覆盖一些低频但重要的词汇。尤其对于一些命名实体字符(Named Entity,NE),因其并没有被包含在翻译词表中,在翻译时无法对命名实体字符进行相应的翻译,可能造成翻译丢失的问题。
因此,目前的翻译机制难以全面覆盖翻译命名实体字符,严重影响了翻译质量。
发明内容
鉴于上述问题,本发明实施例提出了一种克服上述问题或者至少部分地解决上述问题的一种机器翻译方法、一种机器翻译装置、一种机器翻译系统训练方法以及一种机器翻译系统训练装置。
为了解决上述问题,本发明实施例公开了一种机器翻译方法,所述方法包括:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
可选地,所述将所述中间字符串翻译为目标字符串的步骤进一步包括:
查找与所述实体类别标签对应的编辑规则;
按照所述编辑规则,编辑所述目标字符。
可选地,所述编辑所述目标字符的步骤包括:
针对所述目标字符添加间隔标记;
和/或,
调整所述目标字符的表达形式。
可选地,所述在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符的步骤包括:
查找与所述实体类别标签对应的映射表;
在查找的映射表中,查找与所述命名实体字符对应的字符作为所述目标字符。
可选地,建立所述映射表的方法包括:
在网络上爬取源语言的命名实体字符;
针对爬取的命名实体字符,标注对应的实体类别标签,以及将所述命名实体字符翻译为目标语言的字符;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611035439.3/2.html,转载请声明来源钻瓜专利网。





