[发明专利]一种基于序列到序列神经网络模型的文言文白话文互译方法及系统在审
申请号: | 201810789097.7 | 申请日: | 2018-07-18 |
公开(公告)号: | CN109033094A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 陈涛;吴明芬 | 申请(专利权)人: | 五邑大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06N3/04 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吴伟文 |
地址: | 529020 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 互译 神经网络模型 记忆网络 编码器 人工神经网络模型 输入神经网络 解码器 误差归一化 解码 多次迭代 机制实现 人工标注 实际需求 误差反馈 训练参数 拟合 收敛 输出 传递 网络 | ||
本发明提供一种基于序列到序列神经网络模型的文言文白话文互译方法及系统,通过使用一个长短时记忆网络构成的编码器对输入的文言文进行编码;使用由另一个长短时记忆网络构成的解码器对上述编码进行解码,生成对应的白话文翻译;将生成的白话文翻译与上述输入的文言文的人工标注的白话文翻译进行对比,将误差归一化后传递给编码器;经过多次迭代直到模型收敛;将需要翻译的文言文输入神经网络模型中,将网络的输出作为上述对应的白话文翻译。本发明采用基于序列到序列的人工神经网络模型来训练文言文白话文互译语料,通过翻译误差反馈机制实现训练参数的拟合,达到文言文与白话文互译的效果,满足广大用户和企业对文言文白话文翻译的实际需求。
技术领域
本发明涉及一种自然语言处理技术领域,尤其是一种基于序列到序列神经网络模型的文言文白话文互译方法及系统。
背景技术
文言文是用“文言”这种古代书面语写成的文章。所谓“文言”,是汉语书面语的一种,产生于先秦时期,因此,文言文首先是指古代秦汉时期所写的文章,也包括后代作家模仿秦汉语言而写成的文章。从外延来看,“文言文”指古代诗、词、曲、小说以外的各体文章,主要包括散体文、赋与骈文等。几千年中华文化的核心都蕴含在文言文中,它是中华文化数千年延绵不断的主要原因之一,也是中国古人的信仰、价值观的载体。可以说,文言文就是中华文化基因图谱。
然而,近代以来,人们多以白话文进行书写、表达、著书立说,普通人每天接触的都是白话文,丧失了对文言文的阅读、书写、表达的能力。文言文具有文字简约,内容深刻,表达精准,典雅高贵,节奏铿锵等特点,是我们传承中华文化、提高自身修养不可或缺的要素。利用先进的计算机技术将文言文自动转换成白话文,有助于人们对古典文献的学习和运用;同时,利用计算机技术将白话文转换成相应的文言文,帮助人们将自己的思想用文言文的形式表达出来,同样具有广泛的需求和应用价值。因此,对文言文和白话文进行互译是一项意义深远、价值明显的课题,是自然语言处理、机器翻译等人工智能技术新的应用领域。文言文白话文互译的主要目的是应用自然语言处理技术和机器翻译技术,将数字化的文言文文本输入给计算机,计算机自动输出对应的白话文翻译文本,将数字化的白话文文本输入给计算机,计算机自动输出对应的文言文翻译文本。
随着网络信息技术的不断发展,尤其是大数据、云计算、移动互联网等技术在中国的飞速发展,互联网上积累了大量的白话文和文言文信息,人们的需求不再仅限于对已有的文言文的阅读和理解,越来越多的人希望能够在不同的场合运用和书写属于自己的文言文。同时,由于文言文存在学习门槛,伴随着人工智能、机器学习、自然语言处理技术的不断发展和信息系统应用范围的不断深化,尤其是机器翻译技术的日趋成熟,很多人希望借助计算机辅助进行文言文和白话文之间的互相翻译。也就是说,人们不仅希望看到一篇文言文,能够知道它所表达的意思,也希望将自己用白话文表达的意思能够用文言文的形式表现出来。由此看出,文言文白话文互译系统具有较大的应用需求和行业前景。
发明内容
针对现有技术的不足,本发明提供一种基于序列到序列神经网络模型的文言文白话文互译方法及系统,本发明通过使用一个长短时记忆网络(Long Short-Term MemoryNetwork,LSTM网络)构成的编码器对输入的文言文进行编码;然后使用由另一个长短时记忆网络构成的解码器对上述编码进行解码,生成对应的白话文翻译;接下来,将生成的白话文翻译与上述输入的文言文的人工标注的白话文翻译进行对比,将误差归一化后传递给编码器;经过多次迭代直到模型收敛或迭代次数达到阈值;最后,将需要翻译的文言文输入到上述由两个长短时记忆网络(一个编码器,一个解码器)构成的序列到序列神经网络模型中,将网络的输出作为上述对应的白话文翻译。
本发明的技术方案为:一种基于序列到序列神经网络模型的文言文白话文互译方法,包括以下步骤:
S1)、使用一个长短时记忆网络作为编码器,使用另一个长短时记忆网络作为译码器,通过编码器的输出作为译码器的输入将编码器和译码器拼接成一个序列到序列神经网络模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810789097.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于相似度匹配的文本翻译方法
- 下一篇:基于注意力机制的目标变换方法