[发明专利]句子级双语对齐方法及装置、计算机可读存储介质有效
申请号: | 201811562126.2 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109670178B | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 聂镭;李睿;聂颖;郑权;张峰 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 北京博讯知识产权代理事务所(特殊普通合伙) 11593 | 代理人: | 柳兴坤 |
地址: | 519031 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对齐 矩阵 文本相似度 文本 计算机可读存储介质 卷积核 卷积 语句 句子 断句 优化 核对 | ||
本发明公开了一种句子级双语对齐方法及装置、计算机可读存储介质,该方法包括:步骤S1:获取Z个训练好的卷积核,其中,Z为大于等于1的整数;步骤S2:分别对两个待对齐文本进行断句处理,并建立所述两个待对齐文本的文本相似度矩阵U:步骤S3:采用所述Z个训练好的卷积核中的每一个卷积核对所述文本相似度矩阵U进行卷积,得到Z个优化文本相似度矩阵;步骤S4:利用所述Z个优化文本相似度矩阵得到所述两个待对齐文本的语句对齐结果。本发明有利于提高文本间语句对齐的效率。
技术领域
本发明涉及自然语言处理技术领域,特别是一种句子级双语对齐方法及装置、计算机可读存储介质。
背景技术
平行语料库对于基于自然语言处理的翻译算法来说是较为重要的资料,平行/对应语料库是由原文文本及其平行对应的译语文本构成的双语/多语语料库,其对齐程度可分为词级、句级、段级和篇级几种,其中,句级的平行语料是最常用的语料库,因此,常常会将将段级、篇级的平行语料转换成句级的平行语料,但是在语料库中,原文与译文并不一定是一一对应的,例如,由于文章结构与作者写作习惯的不同,可能会造成15个中文语句对应22个英文语句,也有可能会造成16个中文语句对应50个英文语句,所以需要考虑复杂多样的句子配对情况,目前主要是采用人工方式将段落和篇章的语料库拆分组合成一一对应的句子,这种方式需要耗费大量的人力和时间,从而不利于语句对齐效率的提高。
发明内容
有鉴于此,本发明的目的之一在于提供一种句子级双语对齐方法及装置、计算机可读存储介质,有利于语句对齐效率的提高。
为达到上述目的,本发明的技术方案提供了一种句子级双语对齐方法,包括:
步骤S1:获取Z个训练好的卷积核,其中,Z为大于等于1的整数,每一个所述训练好的卷积核通过步骤S11-步骤S15得到;
步骤S11:分别对两个训练用文本进行断句处理,并建立所述两个训练用文本的文本相似度矩阵B:
其中,n为所述两个训练用文本中的一个训练用文本经过断句处理得到的语句的数量,m为所述两个训练用文本中的另一个训练用文本经过断句处理得到的语句的数量,文本相似度矩阵B中的元素Kij为所述一个训练用文本经过断句处理得到的第i个语句与所述另一个训练用文本经过断句处理得到的第j个语句的文本相似度;
步骤S12:初始化卷积核;
步骤S13:利用当前的卷积核对所述两个训练用文本的文本相似度矩阵B进行卷积,得到矩阵P,并计算损失值loss,若损失值loss满足预设要求,则执行步骤S14,否则,执行步骤S16;
其中,若所述一个训练用文本经过断句处理得到的第i个语句与所述另一个训练用文本经过断句处理得到的第j个语句配对,则Lij为1,否则为0;
步骤S14:采用验证集对当前的卷积核进行验证,判断验证的结果是否满足预设要求,若是,执行步骤S15,若否,执行步骤S16;
步骤S15:将当前的卷积核作为训练好的卷积核;
步骤S16:根据损失值loss调整当前的卷积核的权重,判断当前的训练次数是否达到预设次数,若是,执行步骤S15,若否,重复执行步骤S13;
步骤S2:分别对两个待对齐文本进行断句处理,并建立所述两个待对齐文本的文本相似度矩阵U:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811562126.2/2.html,转载请声明来源钻瓜专利网。