[发明专利]一种基于莱文斯坦比的文言文-现代文翻译系统构建方法在审

专利信息
申请号: 202110407920.5 申请日: 2021-04-15
公开(公告)号: CN113033220A 公开(公告)日: 2021-06-25
发明(设计)人: 杜权 申请(专利权)人: 沈阳雅译网络技术有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F40/205;G06F40/284;G06F40/289
代理公司: 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 代理人: 李晓光
地址: 110004 辽宁省沈阳市*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 斯坦 文言文 现代文 翻译 系统 构建 方法
【说明书】:

发明公开一种基于莱文斯坦比的文言文‑现代文翻译系统构建方法,步骤为:通过互联网获取文言文‑现代文双语数据;对双语数据进行数据清洗得到预处理后的双语数据;对预处理后的双语数据使用基于莱文斯坦比的句对齐方法构建文言文‑现代文双语平行语料库;使用构建好的双语平行语料库基于Tensor2Tensor开源系统训练文言文‑现代文神经机器翻译模型;将训练完成的文言文‑现代文神经机器翻译模型进行封装,部署到线上,完成文言文‑现代文神经机器翻译系统的搭建。本发明在文言文‑现代文双语平行语料库空缺的情况下实现性能较好的文言文‑现代文神经翻译系统,文言文‑现代文双语平行语料库对于其他研究者将提供极大便利。

技术领域

本发明涉及一种翻译系统的构建方法,具体为一种基于莱文斯坦比的文言文-现代文翻译系统构建方法。

背景技术

自文化强国战略提出以来,我国经济、政治、文化的全球化发展,国与国之间的关系发展越来越密切,各国间的交流也越来越频繁。而中华上下五千年优秀传统文化的载体正是流传至今的古代文集和诗词古籍。但是由于古代汉语和现代汉语的差别较大,不仅阻碍了传统文化向国外的传播,连我们普通百姓阅读古籍都十分困难。

从国内来讲,目前古文翻译的受众群体主要是中学生、对古文有着浓厚兴趣的群组和专门从事古文研究的专业人士。对于他们而言,虽然有一定的古文翻译基础,但个别生僻词汇和短语仍然需要去查找翻译。而纸质资料查阅起来十分麻烦,在线的古文翻译系统像百度的文言文翻译,对古文的翻译依旧存在许多错误。这将对人们理解古文,了解优秀古代传统文化造成了极大的不便利。从国外来讲,外国友人所使用的在线翻译系统仅仅支持本国语言到中文的翻译,而中文到文言文的翻译却是一片空白,这将极大阻碍传统文化的全球化推广。

随着科技日新月异的发展,机器翻译技术成为人工智能里非常重要的一块领域。机器翻译,自20世纪30年代初露端倪以来,如今已取得了突破性进展。在提高翻译效率、改变翻译作业方式、促进翻译多元发展中起着至关重要的作用。随着科技的进步,机器翻译方法也在不断革新,从早期的基于规则的机器翻译,到20世纪90年代基于统计的机器翻译,再到现在随着深度学习而崛起的基于神经网络的机器翻译,每一次革新,都会为现代翻译业注入鲜活的生命力。

随着深度学习的不断发展,机器翻译中越来越多的开始采用神经网络学习方法,采用端到端的神经机器翻译(Neural Machine Translation,NMT)因此得到了快速发展。它直接使用神经网络实现源语到目标语的映射,相比于统计机器翻译,由于神经机器翻译不需要进行短语切分、词对齐等步骤,也无需句法分析等语言学知识支持,人工成本低并且开发周期短,因此成为谷歌、百度等国内外公司机器翻译系统的核心技术。

虽然现在的机器翻译技术逐渐成熟,在像英语、法语、德语等大众化语言上的翻译效果十分出色,但是对于小语种和方言支持的还是比较少的,而文言文翻译更是鲜有人来做。目前国内可以翻译小语种的平台主要是小牛翻译和百度翻译,而国际上主要是谷歌翻译。但是针对文言文-现代文的翻译平台国内外只有百度翻译少有涉及,但是目前翻译质量较低,与人工翻译文言文的水平还有一定差距。

目前无论是在国内还是国外,文言文-现代文机器翻译系统的研究都极度稀缺,文言文-现代文的平行语料更是少之又少,而且无法直接获取,文言文-现代文翻译仍处于一片空白的状态,严重阻碍了中国古代优秀传统文化的传播和推广。

发明内容

针对文言文-现代文双语数据无法直接获取平行语料搭建机器翻译系统,严重阻碍了中国古代优秀传统文化的传播和推广等不足,本发明要解决的技术问题是提供一种基于莱文斯坦比的文言文-现代文翻译系统构建方法,构建了文言文-现代文双语平行语料库,之后通过训练得到神经机器翻译系统,填补了国内外文言文-现代文机器翻译系统的空白。

为解决上述技术性问题,本发明采用的技术方案是:

本发明提供一种基于莱文斯坦比的文言文-现代文翻译系统构建方法,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110407920.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top