[发明专利]一种翻译方法、装置、设备及可读存储介质在审
| 申请号: | 201811276866.X | 申请日: | 2018-10-30 | 
| 公开(公告)号: | CN109408833A | 公开(公告)日: | 2019-03-01 | 
| 发明(设计)人: | 孔常青;高建清;刘俊华;胡国平 | 申请(专利权)人: | 科大讯飞股份有限公司 | 
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 | 
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雨;王宝筠 | 
| 地址: | 230088 安徽*** | 国省代码: | 安徽;34 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 源语言文本 断句 翻译 可读存储介质 场景 目标语言文本 申请 优化 | ||
本申请公开了一种翻译方法、装置、设备及可读存储介质,方法包括:在获取到待翻译的源语言文本时,进一步根据当前的翻译场景对源语言文本进行断句,得到的断句后的源语言文本更加符合当前的翻译场景,显然,相比于现有翻译方法,本申请对得到的源语言文本增加了断句优化过程,即考虑了当前翻译场景对源语言文本进行重新断句,使得源语言文本的断句方式更加优化,进而基于此对断句后的源语言文本进行翻译,得到的目标语言文本的质量也会更高。
技术领域
本申请涉及翻译技术领域,更具体地说,涉及一种翻译方法、装置、设备及可读存储介质。
背景技术
文本翻译的过程,即将待翻译的源语言文本翻译为目标语音文本的过程。对于待翻译的源语言文本,其断句方式并不规范,受源语言文本的来源的影响,如对于通过语音识别得到的源语言文本,其主要依靠语音的停顿信息进行断句,往往受说话人习惯影响。
现有技术基于此类断句方式并不优化的源语言文本进行机器翻译时,会大大影响机器翻译的质量。
发明内容
有鉴于此,本申请提供了一种翻译方法、装置、设备及可读存储介质,用于解决现有待翻译的源语言文本断句不优化,导致机器翻译质量低的问题。
为了实现上述目的,现提出的方案如下:
一种翻译方法,包括:
获取待翻译的源语言文本;
根据当前翻译场景对所述源语言文本进行断句,得到断句后的源语言文本;
对所述断句后的源语言文本进行翻译,得到目标语言文本。
优选地,所述根据翻译场景对所述源语言文本进行断句,得到断句后的源语言文本,包括:
将所述源语言文本输入预置的文本断句模型,得到文本断句模型输出的断句后的源语言文本;
其中,所述文本断句模型为,以源语言训练文本作为训练数据,以所述源语言训练文本的符合所述当前翻译场景的断句结果作为训练标签训练得到。
优选地,所述文本断句模型的确定过程包括:
获取源语言训练文本;
确定所述源语言训练文本的符合所述当前翻译场景的断句结果,作为目标断句结果;
以所述源语言训练文本作为训练数据,以所述目标断句结果作为训练标签,训练文本断句模型。
优选地,所述确定所述源语言训练文本的符合所述当前翻译场景的断句结果,作为目标断句结果,包括:
获取所述源语言训练文本在所述当前翻译场景下的翻译后的目标语言训练文本;
参考设定的断句更改方式,对所述源语言训练文本的断句方式进行更改,得到更改后的源语言训练文本,由更改后的源语言训练文本及所述源语言训练文本组成候选源语言训练文本;
利用预置的机器翻译模型,对每一所述候选源语言训练文本进行翻译,得到每一所述候选源语言训练文本的机器翻译结果;
确定每一所述候选源语言训练文本的机器翻译结果,与所述目标语言训练文本的相似度,将相似度最高的候选源语言训练文本作为所述目标断句结果。
优选地,所述参考设定的断句更改方式,对所述源语言训练文本的断句方式进行更改,得到更改后的源语言训练文本,包括:
确定所述源语言训练文本包含的非终止型标点;
将所述源语言训练文本包含的每一非终止型标点,使用终止型标点进行替换,得到更改后的源语言训练文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811276866.X/2.html,转载请声明来源钻瓜专利网。





