[发明专利]平行语料对齐方法、装置、设备和存储介质在审
| 申请号: | 202011087653.X | 申请日: | 2020-10-12 |
| 公开(公告)号: | CN112347757A | 公开(公告)日: | 2021-02-09 |
| 发明(设计)人: | 陈秋霖;朱宪超;邓龙 | 申请(专利权)人: | 四川语言桥信息技术有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/263 |
| 代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 卜荣丽 |
| 地址: | 610000 四川省成都市中国(四川)自由贸易试验区*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 平行 语料 对齐 方法 装置 设备 存储 介质 | ||
1.一种平行语料对齐方法,其特征在于,包括:
获取目标译文文件和目标原文文件;
分别对所述目标译文文件和所述目标原文文件进行预处理,得到与所述目标译文文件对应的多个目标译文段落和与所述目标原文文件对应的多个目标原文段落;
利用ASCll码识别所述多个目标译文段落的语种,得到第一语种集合;利用ASCll码识别所述多个目标原文段落的语种,得到第二语种集合;
查找并提取所述多个目标译文段落和所述多个目标原文段落中的预设特定语境句子;
根据所述第一语种集合和所述第二语种集合中,每个语种对应的预设断句规则,对对应的提取了所述预设特定语境句子的所述目标译文段落以及所述目标原文段落,进行拆分断句,得到多个目标译文断句和多个目标原文断句;
将所提取的所述预设特定语境句子插入到所述多个目标译文断句和所述多个目标原文断句的对应位置,并将插入了所述预设特定语境句子的所述多个目标译文断句和所述多个目标原文断句一一对齐,完成所述目标译文文件和所述目标原文文件的语料对齐。
2.如权利要求1所述的方法,其特征在于,所述分别对所述目标译文文件和所述目标原文文件进行预处理,得到与所述目标译文文件对应的多个目标译文段落和与所述目标原文文件对应的多个目标原文段落,包括:
分别对所述目标译文文件和所述目标原文文件进行文件解析,统一所述目标译文文件和所述目标原文文件的字符编码,得到目标译文编码和目标原文编码;
删除所述目标译文编码和所述目标原文编码中与预设删除符号匹配的标识符;
根据段落标识符对删除了所述标识符的所述目标译文编码和所述目标原文编码进行段落拆分,得到所述多个目标译文段落和所述多个目标原文段落。
3.如权利要求2所述的方法,其特征在于,所述预设删除符号包括中文空格符和西文空格符。
4.如权利要求1所述的方法,其特征在于,所述利用ASCll码识别所述多个目标译文段落的语种,得到第一语种集合,包括:
根据所述ASCll码识别所述多个目标译文段落的文字;
若所述多个目标译文段落中所述ASCll码对应的语种的比例大于预设阈值,则确定所述ASCll码对应的所述语种为所述目标译文段落的第一语种,由每个所述目标译文段落的所述第一语种构成所述第一语种集合。
5.如权利要求1所述的方法,其特征在于,所述利用ASCll码识别所述多个目标原文段落的语种,得到第二语种集合,包括:
根据所述ASCll码识别所述多个目标原文段落的文字;
若所述多个目标原文段落中所述ASCll码对应的语种的比例大于预设阈值,则确定所述ASCll码对应的所述语种为所述目标原文段落的第二语种,由每个所述目标原文段落的所述第二语种构成所述第二语种集合。
6.如权利要求1所述的方法,其特征在于,所述预设特定语境句子包括缩写词、人名、章节符号、网络文学中的一种或多种。
7.如权利要求1所述的方法,其特征在于,所述预设断句规则包括无引号规则和引号内存在断句符号规则,所述无引号规则包括根据断句符号对段落进行拆分断句;所述引号内存在断句符号规则包括:首先根据引号对所述段落进行拆分断句,然后再根据无引号规则对其余段落进行拆分断句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川语言桥信息技术有限公司,未经四川语言桥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011087653.X/1.html,转载请声明来源钻瓜专利网。





