[发明专利]一种双语平行数据一致性检测与纠正方法有效
| 申请号: | 201911324133.3 | 申请日: | 2019-12-20 |
| 公开(公告)号: | CN111178089B | 公开(公告)日: | 2023-03-14 |
| 发明(设计)人: | 杜权;李自荐 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
| 主分类号: | G06F40/45 | 分类号: | G06F40/45;G06F40/284 |
| 代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
| 地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 双语 平行 数据一致性 检测 纠正 方法 | ||
本发明公开一种双语平行数据一致性检测与纠正方法,步骤为:对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并组成双语平行数据集;对双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系并进行辅助判断,得出实体对应表;如果句对间序号不一致,则进行纠正;在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测;对检测到的存在括号内容不一致性进行评估,并给出修正或删除操作;获取数据中出现的单词粘连情况并进行拆分修正;得到最终经过数据处理后的双语平行数据集。本发明对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正,改善了双语数据质量,提升神经机器翻译性能。
技术领域
本发明涉及机器翻译领域,具体为一种双语平行数据一致性检测与纠正方法。
背景技术
近年来,使用深度神经网络构建的机器翻译系统,简称神经机器翻译技术,成为目前人工智能方向的主流。但是,作为一种具有超强学习能力的神经网络模型,神经机器翻译模型在训练的过程中往往需要依赖大规模的双语平行语料进行支撑。总体来说,双语数据语料质量的好坏将严重影响着神经机器翻译模型性能。但是,随着目前互联网技术的发展,网络上虽然存在大量的非结构化双语平行数据,但其质量并不能得到保证,而在现有的双语平行语料中,除去句子互译性极差的句对之外,如语种错误、句子严重漏译等问题,数据中的噪声主要来自于其中的一些微小的问题,但是这也将对神经机器翻译模型的训练效果产生严重影响。
在以往的研究工作中,基于神经机器翻译双语平行语料的有关工作中的一项重要任务数据一致性处理,对于数据中存在的某些实体对应不一致、单词黏连、序号不一致等情况,利用一般的检测方法很难正确识别出这些问题,原因是这些问题对于某些自动化句子互译性评估指标的影响往往是微小的。但是,对于这些微小问题的处理工作是重要的,原因是数据中存在以上情况将可能导致神经机器翻译模型最终的译文结果出现同样的问题,影响模型最终生成译文的效果。
在机器翻译领域,神经机器翻译模型训练语料质量提升一直都是研究的重点方向,其中一个最主要的原因即为由于目前数据语料来源的多样性,导致在双语数据中可能会存在各种各样的问题。在计算机视觉领域中,去除训练数据中的噪声,使训练数据呈现高质量的状态是训练神经网络模型的重中之重,改善模型学习效果的图像数据清洗工作已经成为了一项必不可少的基础性工作。同样的,在神经机器翻译模型训练的过程中,为了能够训练出具有可靠参数估计的模型,需要大量的高质量平行句对来支撑模型训练。因此,数据质量的不足往往造成了模型性能的缺陷。就神经机器翻译来说,其用于训练的深度神经机器翻译模型本身就具有超强的学习能力,因此对其训练数据中的细节问题非常敏感,如果在其训练数据中存在过多细节性的问题,很大可能将会造成最终模型性能的缺陷,影响翻译效果及使用体验。
发明内容
针对现有技术中神经机器翻译模型训练的过程中,双语数据语料质量参差不齐,需要在现有数据的基础上对数据中出现的各项问题进行根本性的改进,提升数据质量,本发明要解决的问题是提供一种双语平行数据一致性检测与纠正方法,用以解决由数据原因造成神经机器翻译模型翻译质量较差的问题。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种双语平行数据一致性检测与纠正方法,包括以下步骤:
1)在公开数据集网站中获取指定语种方向的双语平行语料公开数据集作为数据一致性纠正的基础数据集,在基础数据集中分别以源语言以及目标语句子分别组成单语数据集,作为后续句子一致性纠正规则学习的主要数据集;
2)使用开源的单词切分技术,对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并使用经过分词后的数据集组成最终经过分词后的双语平行数据集;
3)使用fast_align词对齐技术对分词后的双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911324133.3/2.html,转载请声明来源钻瓜专利网。





