[发明专利]文档翻译方法及装置有效
| 申请号: | 202010090262.7 | 申请日: | 2020-02-13 |
| 公开(公告)号: | CN111368091B | 公开(公告)日: | 2023-09-22 |
| 发明(设计)人: | 冯歆然;刘华杰;王雅欣;罗杰文 | 申请(专利权)人: | 中国工商银行股份有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/117;G06F40/211;G06F40/30;G06F40/58;G06N3/08 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;汤在彦 |
| 地址: | 100140 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 翻译 方法 装置 | ||
本发明公开了一种文档翻译方法及装置,该方法包括:获取双语文本数据;对所述双语文本数据进行标注,得到标注好的双语文本数据;从所述双语文本数据中抽取双语结构化数据,并根据所述双语结构化数据构建知识图谱;根据所述知识图谱以及所述标注好的双语文本数据采用预设的神经网络模型进行模型训练,得到文档翻译模型,以根据所述文档翻译模型对文档进行翻译。本发明提高了文档的翻译效率,实现翻译过程的自动化。
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种文档翻译方法及装置。
背景技术
人工智能领域很多的开源项目和工具的说明文档都是用英语进行撰写的,如果要将这些项目在行内利用,就需要对这些技术文档进行翻译以便开发人员和业务人员理解和使用。目前主要采用人工翻译的方式,花费时间长,且翻译质量受限于译者对相关内容的了解程度的影响。现有技术缺少一种高效的技术文档翻译方法。
发明内容
本发明为了解决上述背景技术中的至少一个技术问题,提出了一种文档翻译方法及装置。
为了实现上述目的,根据本发明的一个方面,提供了一种文档翻译方法,该方法包括:
获取双语文本数据;
对所述双语文本数据进行标注,得到标注好的双语文本数据;
从所述双语文本数据中抽取双语结构化数据,并根据所述双语结构化数据构建知识图谱;
根据所述知识图谱以及所述标注好的双语文本数据采用预设的神经网络模型进行模型训练,得到文档翻译模型,以根据所述文档翻译模型对文档进行翻译。
可选的,所述根据所述知识图谱以及所述标注好的双语文本数据采用预设的神经网络模型进行模型训练,包括:
根据所述知识图谱从所述标注好的双语文本数据中选择关键词,并对所述关键词进行掩盖;
根据所述神经网络模型对掩盖的关键词进行预测。
可选的,所述根据所述知识图谱从所述标注好的双语文本数据中选择关键词,具体包括:
预设比例时间根据所述知识图谱选择关键词,剩余比例时间采用随机选择的方法选择关键词。
可选的,所述对所述关键词进行掩盖,具体包括:
第一预设比例时间采用随机词对所述关键词进行掩盖,第二预设比例时间采用所述关键词的原词对所述关键词进行掩盖,第三预设比例时间采用预设字符对所述关键词进行掩盖,其中,第一预设比例时间、第二预设比例时间以及第三预设比例时间的总和为百分之百。
可选的,所述根据所述知识图谱以及所述标注好的双语文本数据采用预设的神经网络模型进行模型训练,包括:
针对所述标注好的双语文本数据中的每个句子生成预测下文句,其中,所述预测下文句包括:句子在所述标注好的双语文本数据中的真实下文句、根据所述知识图谱从预设的语料库中选择的句子的相关句、根据所述知识图谱从所述标注好的双语文本数据中选择的句子的非相关句以及从所述语料库中随机选择的句子中的至少一种;
根据所述神经网络模型预测所述预测下文句是否为对应句子的下文。
可选的,所述神经网络模型包括:Tramsformer模型。
为了实现上述目的,根据本发明的另一方面,提供了一种文档翻译装置,该装置包括:
双语语料获取单元,用于获取双语文本数据;
标注单元,用于对所述双语文本数据进行标注,得到标注好的双语文本数据;
知识图谱构建单元,用于从所述双语文本数据中抽取双语结构化数据,并根据所述双语结构化数据构建知识图谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010090262.7/2.html,转载请声明来源钻瓜专利网。





