[发明专利]语音翻译方法、装置、计算机设备和存储介质有效
申请号: | 202010062844.4 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111310481B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 张睿卿;张传强;熊皓;何中军;李芝;吴华;王海峰 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/56 | 分类号: | G06F40/56;G06F40/30;G06F40/284;G10L15/18;G10L15/22;G10L15/26 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王艳斌 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 翻译 方法 装置 计算机 设备 存储 介质 | ||
本申请公开了一种语音翻译方法、装置、计算机设备和存储介质,涉及计算机技术领域的语音技术领域。具体实现方案为:通过获取源语音的第i字符串,其中,i为正整数;将第i字符串输入经过训练的切分模型,判断第i字符串是否为无歧义语义单元;确定第i字符串为无歧义语义单元,则对第i字符串进行翻译以生成第i目标字符串;以及确定第i字符串不为无歧义语义单元,则不对第i字符串进行翻译,直至第i字符串至第i+n字符串的之和为无歧义语义单元时,对第i字符串至第i+n字符串的之和进行翻译,其中,n为正整数。由此,避免了源语音中存在多种释义的字符串翻译错误,从而影响整句翻译的准确度的问题,有利于提高语音翻译的准确度。
技术领域
本申请涉及计算机技术领域的语音技术领域,尤其涉及一种语音翻译方法、装置、计算机设备和存储介质。
背景技术
语音翻译是将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。不同于传统的机器翻译,语音翻译的输入直接是语音,输出是文本。现如今语音翻译已经越来越普及,目前的语音翻译技术都是以单个词为翻译单元进行语音翻译的。
在实际使用翻译机器进行语音翻译时,当源语音中存在多义词时,会出现多义词翻译错误,导致整个句子翻译准确率较低的情况。
发明内容
本申请提出了一种语音翻译方法,解决了相关技术中语音翻译存在准度率较低的情况。
本申请第一方面实施例提出了一种语音翻译方法,包括:
获取源语音的第i字符串,其中,i为正整数;
将所述第i字符串输入经过训练的切分模型,判断所述第i字符串是否为无歧义语义单元;
确定所述第i字符串为无歧义语义单元,则对所述第i字符串进行翻译以生成第i目标字符串;以及
确定所述第i字符串不为无歧义语义单元,则不对所述第i字符串进行翻译,直至第i字符串至第i+n字符串的之和为所述无歧义语义单元时,对所述第i字符串至第i+n字符串的之和进行翻译,其中,n为正整数。
作为本申请实施例的第一种可能的实现方式,所述将所述第i字符串输入经过训练的切分模型,判断所述第i字符串是否为无歧义语义单元之前,包括:
获取训练样本;所述训练样本包括所述源语言样本和目标语言样本,所述源语言样本中包含的每一个语义单元均为无歧义语义单元;
采用所述训练样本对所述切分模型进行训练。
作为本申请实施例的第二种可能的实现方式,所述获取训练样本,包括:
将所述源语言样本中每一个字符串与目标语言样本中相应的字符串进行对齐处理,得到对齐信息,并记录在短语表中;
根据所述短语表中记录的所述对齐信息,筛选出所述源语言样本中的多义词;
根据所述源语言样本中的多义词,判断所述源语言样本中的第i字符串是否为无歧义语义单元;
确定所述源语言样本中的第i字符串为无歧义语义单元,则在所述第i字符串对应位置进行切分;
确定所述源语言样本中的第i字符串不为无歧义语义单元,则不对所述第i字符串对应位置进行切分,直至第i字符串至第i+n字符串的之和为所述无歧义语义单元时,对所述第i字符串至第i+n字符串的之和对应位置进行切分,其中,n为正整数。
作为本申请实施例的第三种可能的实现方式,所述根据所述短语表中记录的所述对齐信息,筛选出所述源语言样本中的多义词,包括:
根据所述对齐信息,统计所述源语言样本中对应至少两个释义的字符串;
确定所述对应至少两个释义的字符串为所述源语言样本中的多义词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010062844.4/2.html,转载请声明来源钻瓜专利网。