[发明专利]平行语料对齐方法、装置、设备和存储介质在审
| 申请号: | 202011087653.X | 申请日: | 2020-10-12 |
| 公开(公告)号: | CN112347757A | 公开(公告)日: | 2021-02-09 |
| 发明(设计)人: | 陈秋霖;朱宪超;邓龙 | 申请(专利权)人: | 四川语言桥信息技术有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/263 |
| 代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 卜荣丽 |
| 地址: | 610000 四川省成都市中国(四川)自由贸易试验区*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 平行 语料 对齐 方法 装置 设备 存储 介质 | ||
本申请公开了一种平行语料对齐方法、装置、设备和存储介质。方法包括利用ASCll码识别目标译文段落和目标原文段落的语种;提取预设特定语境句子;对目标译文段落和目标原文段落拆分断句;将预设特定语境句子插入到目标译文断句和目标原文断句的对应位置,并一一对齐。本申请通过ASCll码识别目标译文段落和目标原文段落的语种,匹配相应语种的预设断句规则,并提取预设特定语境句子,进行特殊语境分离后,进行拆分断句,能够确保精准断句,进而大幅度提高语料对齐的精准度,适用范围广。本申请解决相关技术中单一的断句规则无法满足目前复杂的语料环境,明显的断句错误会直接影响对齐的效果,导致原译文无法对齐或者对齐错位的技术问题。
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种平行语料对齐方法、装置、设备和存储介质。
背景技术
现有的平行语料对齐方法通常是通过文本解析工具将原译文解析后,根据段落标识符拆成句段,再根据明显断句符号对每一句段进行断句拆分,最后再根据句子将原译文句段一一对应匹配。
但是现有的平行语料对齐方法对支持的语种要求严格,并且语种单一、文件格式单一。语料对齐的前提是准确进行句段拆分,但是现有的语料对齐中单一的断句规则已经无法满足目前复杂的语料环境。
比如单一的按照标点进行断句,例如英文中带连字符MR.GREEN、U.S.这种就会被拆分开形成一句。中文中也不乏有这种弊端,例如网络文学这一类的“你好吗?”、“今天天气很好!”。如果按照现有的平行语料的对齐方法进行词句拆分后,句子就被分成了“你好吗?”、“?”、“今天天气很好!”、“!”“。”。以上明显的断句错误会直接影响接下来对齐的效果,导致原译文无法对齐或者对齐错位。
针对相关技术中单一的断句规则无法满足目前复杂的语料环境,明显的断句错误会直接影响对齐的效果,导致原译文无法对齐或者对齐错位的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种平行语料对齐方法、装置、设备和存储介质,以解决相关技术中单一的断句规则无法满足目前复杂的语料环境,明显的断句错误会直接影响对齐的效果,导致原译文无法对齐或者对齐错位的问题。
为了实现上述目的,第一方面,本申请提供了一种平行语料对齐方法。
根据本申请的方法包括:
获取目标译文文件和目标原文文件;
分别对目标译文文件和目标原文文件进行预处理,得到与目标译文文件对应的多个目标译文段落和与目标原文文件对应的多个目标原文段落;
利用美国信息交换标准代码(American Standard Code for InformationInterchange,ASCll)识别多个目标译文段落的语种,得到第一语种集合;利用ASCll码识别多个目标原文段落的语种,得到第二语种集合;
查找并提取多个目标译文段落和多个目标原文段落中的预设特定语境句子;
根据第一语种集合和第二语种集合中,每个语种对应的预设断句规则,对对应的提取了预设特定语境句子的目标译文段落以及目标原文段落,进行拆分断句,得到多个目标译文断句和多个目标原文断句;
将所提取的预设特定语境句子插入到多个目标译文断句和多个目标原文断句的对应位置,并将插入了预设特定语境句子的多个目标译文断句和多个目标原文断句一一对齐,完成目标译文文件和目标原文文件的语料对齐。
在本申请一种可能的实现方式中,分别对目标译文文件和目标原文文件进行预处理,得到与目标译文文件对应的多个目标译文段落和与目标原文文件对应的多个目标原文段落,包括:
分别对目标译文文件和目标原文文件进行文件解析,统一目标译文文件和目标原文文件的字符编码,得到目标译文编码和目标原文编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川语言桥信息技术有限公司,未经四川语言桥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011087653.X/2.html,转载请声明来源钻瓜专利网。





