[发明专利]企业名称翻译方法及装置在审
申请号: | 202110047727.5 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112766001A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 毛红保 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/55 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郑朝然 |
地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业名称 翻译 方法 装置 | ||
本发明提供一种企业名称翻译方法及装置,该方法包括:基于序列标注模型将待翻译中文企业名称分割成多个部分,将待翻译中文企业名称中的预设部分替换为占位符;将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。本发明针对企业名称这种特殊的翻译文本,提出基于序列标注的处理方法,在不改变机器翻译模型的情况下大大提高企业名称翻译的质量,具有较强的实用性。
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种企业名称翻译方法及装置。
背景技术
企业名称在自然语言处理中被视为一种命名实体,因为其构成形式的特殊性,在翻译时通常需要进行专门处理。若直接在翻译引擎中翻译,往往翻译结果的错误率很高。表1是几个企业名称在某主流翻译引擎中的输出结果,其中加下划线的斜体加粗部分为错误翻译。
表1中文企业名称在翻译引擎中的错误翻译示例
机器翻译引擎对企业名称翻译的效果不佳,跟机器翻译引擎的特性有关。当前的主流机器翻译模型都是基于语料库进行有监督学习的神经机器翻译模型,而新的企业名称每天都在诞生,用于训练的语料库的覆盖有限。此外,神经机器翻译模型为黑盒结构,很难在翻译过程中进行干预和调整,导致一些奇怪的翻译结果出现。
发明内容
本发明提供一种企业名称翻译方法及装置,用以解决现有技术中对企业名称的翻译错误率高的缺陷,实现对企业名称进行正确翻译。
本发明提供一种企业名称翻译方法,包括:
将待翻译中文企业名称中的预设部分替换为占位符;
将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;
将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。
根据本发明提供的一种企业名称翻译方法,所述将待翻译中文企业名称中的预设部分替换为占位符,之前还包括:
将所述待翻译中文企业名称输入序列标注模型中,输出所述待翻译中文企业名称的分割结果;
根据所述分割结果,获取所述待翻译中文企业名称中的预设部分;
其中,所述序列标注模型为,以样本中文企业名称为样本,以与所述样本中文企业名称对应的标注为标签训练得到。
根据本发明提供的一种企业名称翻译方法,所述待翻译中文企业名称的分割结果包括所述待翻译中文企业名称中的企业行政区划、企业字号、企业所属的行业和企业组织形式。
根据本发明提供的一种企业名称翻译方法,所述预设部分包括所述待翻译中文企业名称的企业字号。
根据本发明提供的一种企业名称翻译方法,所述占位符包括括号和预设字符,其中所述预设字符位于所述括号内部;
若所述待翻译中文企业名称中存在多个企业字号,则替换每个所述企业字号的占位符还包括每个企业字号的编号,所述编号位于所述括号内部;
相应地,所述将所述英文译文中的占位符替换为所述预设部分的拼音,包括:
对于所述英文译文中的任一占位符,根据该占位符中企业字号的编号,将该占位符替换为所述编号对应的企业字号的拼音。
根据本发明提供的一种企业名称翻译方法,所述样本中文企业名称对应的标注采用BIO标注。
根据本发明提供的一种企业名称翻译方法,所述序列标注模型为BERT-CRF模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110047727.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高精度光电式角度传感器
- 下一篇:文本主题确定方法、设备及可读存储介质