[发明专利]一种用于企业名称翻译的方法及系统在审
| 申请号: | 201911234842.2 | 申请日: | 2019-12-05 |
| 公开(公告)号: | CN111178090A | 公开(公告)日: | 2020-05-19 |
| 发明(设计)人: | 毛红保 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈玉婷 |
| 地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 企业名称 翻译 方法 系统 | ||
本发明实施例提供一种用于企业名称翻译的方法及系统。该方法包括:获取企业中文名称;将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。本发明实施例通过引入双语训练语料,对通用机器翻译引擎进行训练,并不断地更新训练数据库,从而能得到准确的企业名称机器翻译结果。
技术领域
本发明涉及语言翻译技术领域,尤其涉及一种用于企业名称翻译的方法及系统。
背景技术
目前,在较为专业的翻译领域,往往会碰到针对企业名称的翻译场景,而企业名称是一种特殊形式的短语序列。目前机器翻译对企业名称的翻译结果普遍效果不佳,因此译员不得不将企业名称视为专有名词或专业术语,将其译文预先添加到术语库中进行管理。若在翻译过程中遇到新的、术语库中没有的企业名称,则只能依靠人工翻译,因为机器翻译的结果往往不可用。
现有的机器翻译引擎对企业名称翻译的效果不佳,主要有两点原因:
一是新的企业名称每天都在诞生,而基于语料库学习的机器翻译引擎在训练时接触不到这些新诞生的企业名称,自然造成翻译的效果不佳;
二是企业名称的组成结构和翻译形式比较特殊,按国家工商行政管理总局对企业命名的要求,典型的企业名称由如下四部分构成:
“行政区划”+“字号”+“行业”+“企业组织形式”
如:“上海来伊份食品连锁经营有限公司”对应上面四个部分的结构是:
(上海)(来伊份)(食品连锁经营)(有限公司)
该企业名称的英文译文是:
Shanghai Laiyifen Food Chain Management Co.,Ltd.
在上述四个部分里,“行政区划”和“字号”需要翻译为汉语拼音,“行业”和“企业组织形式”需要翻译为英语,尤其是对于“字号”部分,由于企业命名规则中对该部分没有严格的限制,所以会出现大量随意创造的新词语,进一步给机器翻译引擎的识别和翻译带来了困难。
因此,需要提出一种新的针对企业名称翻译的方法,能提高翻译准确率。
发明内容
本发明实施例提供一种用于企业名称翻译的方法及系统,用以解决现有技术中针对企业名称的翻译采用现有的机器翻译引擎,导致翻译准确率低,翻译效果不理想的缺陷。
第一方面,本发明实施例提供一种用于企业名称翻译的方法,包括:
获取企业中文名称;
将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。
优选地,所述专用机器翻译引擎,通过以下步骤获得:
获取所述双语训练语料;
将所述双语训练语料输入至所述通用机器翻译引擎,进行增量训练,得到所述专用机器翻译引擎。
优选地,所述获取所述双语训练语料,具体包括:
获取企业名称的中文单语训练语料;
将所述中文单语训练语料进行中文分词和词性标注,得到分词结果;
建立包含预设字段类型集合的数据字典;
基于所述分词结果和所述数据字典,将所述企业中文名称分割为具有指定分段格式的名称结构;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911234842.2/2.html,转载请声明来源钻瓜专利网。





