[发明专利]一种双语平行数据一致性检测与纠正方法有效
申请号: | 201911324133.3 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111178089B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 杜权;李自荐 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/45 | 分类号: | G06F40/45;G06F40/284 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种双语平行数据一致性检测与纠正方法,步骤为:对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并组成双语平行数据集;对双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系并进行辅助判断,得出实体对应表;如果句对间序号不一致,则进行纠正;在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测;对检测到的存在括号内容不一致性进行评估,并给出修正或删除操作;获取数据中出现的单词粘连情况并进行拆分修正;得到最终经过数据处理后的双语平行数据集。本发明对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正,改善了双语数据质量,提升神经机器翻译性能。 | ||
搜索关键词: | 一种 双语 平行 数据一致性 检测 纠正 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911324133.3/,转载请声明来源钻瓜专利网。