[发明专利]文本处理方法、装置、电子设备及可读存储介质有效

专利信息
申请号: 202010198468.1 申请日: 2020-03-19
公开(公告)号: CN111368566B 公开(公告)日: 2023-06-30
发明(设计)人: 徐晨灿;袁宁;宫晨;石建勋 申请(专利权)人: 中国工商银行股份有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F40/211;G06F40/289;G06F40/30
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 吕朝蕙
地址: 100140 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 处理 方法 装置 电子设备 可读 存储 介质
【说明书】:

本公开提供了一种文本处理方法,该方法包括:获得混合平行语料和目标平行语料;以混合平行语料和目标平行语料作为训练样本,训练预定模型得到第一翻译模型;以及以待处理文本作为第一翻译模型的输入,获得针对待处理文本的翻译文本。其中,目标平行语料为针对目标领域的平行语料,目标平行语料包括通过第二翻译模型筛选得到的平行语料。其中,第二翻译模型以混合平行语料作为训练样本训练得到。本公开还提供了一种文本处理装置、一种电子设备及一种计算机可读存储介质。

技术领域

本公开涉及文本翻译及系统监控领域,更具体地,涉及一种文本处理方法、装置、电子设备及可读存储介质。

背景技术

随着电子技术的发展,为了提高处理效率,降低人工成本,基于机器学习模型的语言处理得到快速发展。其中,机器翻译为该语言处理的一个重要分支。

在实现本公开构思的过程中,发明人发现现有技术中至少存在以下技术问题:机器翻译除了可以应用于日常的口语翻译外,还可以应用于各种不同的专业领域中。在应用于各种不同的专业领域时,往往需要大量的平行语料作为先验知识来对机器模型进行训练。但考虑到领域专业性及平行语料获取的广泛性,用于训练模型的语料往往鱼目混杂,很难保证训练的模型的准确性,从而在一定程度上影响翻译得到的文本的准确性。

发明内容

有鉴于此,本公开提供了一种能够提高翻译准确性的文本处理方法、装置、电子设备及计算机可读存储介质。

本公开的一个方面提供了一种文本处理方法,该方法包括:获得混合平行语料和目标平行语料;以混合平行语料和目标平行语料作为训练样本,训练预定模型得到第一翻译模型;以及以待处理文本作为第一翻译模型的输入,获得针对待处理文本的翻译文本。其中,目标平行语料为针对目标领域的平行语料,目标平行语料包括通过第二翻译模型筛选得到的平行语料。第二翻译模型以混合平行语料作为训练样本训练得到。

根据本公开的实施例,上述获得目标平行语料包括:获得针对目标领域的多个平行语料;采用第二翻译模型,确定多个平行语料中满足第一条件的平行语料;以及根据满足第一条件的平行语料,获得目标平行语料。

根据本公开的实施例,上述确定多个平行语料中满足第一条件的平行语料包括:针对多个平行语料中的第一平行语料执行以下操作:以第一平行语料包括的源语句作为第二翻译模型的输入,输出得到第一平行语料对应的预测翻译语句;以及根据第一平行语料包括的源语句、第一平行语料包括的翻译语句以及第一平行语料对应的预测翻译语句,确定第一平行语料是否满足第一条件。其中,第一平行语料为多个平行语料中的任意一个平行语料。

根据本公开的实施例,上述确定第一平行语料是否满足第一条件包括:确定第一平行语料对应的预测翻译语句中的多个目标词串,该多个目标词串中的每个目标词串由预测翻译语句中位置连续的多个第一词组成,多个第一词中目标词的占比不小于预定占比;确定多个目标词串中长度最大的目标词串为最大目标词串;确定最大目标词串包括的目标词属于第一平行语料包括的翻译语句的第一比例;以及在第一比例不小于第一预定比例的情况下,确定第一平行语料满足第一条件。其中,目标词包括预定词汇表中的词及多个平行语料包括的翻译语句中的词。

根据本公开的实施例,上述根据满足第一条件的平行语料,获得目标平行语料包括:针对满足第一条件的平行语料中的第二平行语料执行以下操作:根据第二平行语料对应的预测翻译语句的最大目标词串,确定第二平行语料包括的翻译语句中满足第二条件的至少一个分句;确定第二平行语料包括的源语句中与第二平行语料对应的最大目标词串匹配的至少一个第二词;以及拼接至少一个第二词得到目标源语句,拼接至少一个分句得到目标翻译语句。其中,根据第二平行语料得到的目标平行语料包括目标源语句及目标翻译语句,第二平行语料为满足第一条件的平行语料中的任意一个平行语料。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010198468.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top