[发明专利]多人多语种识别和翻译方法与装置有效
| 申请号: | 202110574284.5 | 申请日: | 2021-05-25 |
| 公开(公告)号: | CN113299276B | 公开(公告)日: | 2023-08-29 |
| 发明(设计)人: | 李健;袁逸晨;陈明;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
| 主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/04;G10L15/06;G10L15/26;G10L17/00;G10L17/04;G10L13/047;G06F40/58 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 霍文娟 |
| 地址: | 100089 北京市海淀区东北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多人多 语种 识别 翻译 方法 装置 | ||
本申请提供了一种多人多语种识别和翻译方法与装置。该方法包括:获取整段音频数据,整段音频数据为多个发声者发出的,且各发声者发出的音频数据的语种包括至少一种;将整段音频数据,按照发声者的不同划分为多段第一子音频数据;将各段第一子音频数据,按照语种的不同划分为至少一段第二子音频数据;将各段第二子音频数据转换为文字数据;将各文字数据翻译为目标语言。采用本方案实现了对多人多语种的整段音频数据的准确识别和翻译。
技术领域
本申请涉及机器翻译领域,具体而言,涉及一种多人多语种识别和翻译方法、装置、计算机可读存储介质与处理器。
背景技术
随着经济、科技、生活逐渐全球化,各国人民之间的交流日益频繁,据统计全球一共有5000多种语言,多种语言之间的交流成为重要课题。例如在多国会议场景下,整理多语种会议音频记录,需要使用语音识别和机器翻译来辅助进行整理,将对应语种进行语音转文字,再将文本翻译成目标语言。而语音翻译不准确的痛点在于两个部分:一个是语音识别不准确(语音到文字),一个是翻译不准确(原文到译文),且是线性依赖的,一旦有一环不准确将会导致最终结果不准确。本发明主要解决多人多国语音识别和翻译不准确的问题,以及提升场景体验。
现有技术中没有将多人多语种音频转换为同一语种文字的完整解决方案,无法规避两次转换(语音到文字、原文到译文)带来的转换正确率下降的问题,一般只单一解决语音识别率和翻译正确率的问题。
发明内容
本申请的主要目的在于提供一种多人多语种识别和翻译方法、装置、计算机可读存储介质与处理器,以解决现有技术中多人多国语音识别和翻译不准确的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种多人多语种识别和翻译方法,包括:获取整段音频数据,所述整段音频数据为多个发声者发出的,且各所述发声者发出的音频数据的语种包括至少一种;将所述整段音频数据,按照发声者的不同划分为多段第一子音频数据;将各段所述第一子音频数据,按照语种的不同划分为至少一段第二子音频数据;将各段所述第二子音频数据转换为文字数据;将各所述文字数据翻译为目标语言。
进一步地,将所述整段音频数据,按照发声者的不同划分为多段第一子音频数据,包括:获取各所述发声者的声纹信息;根据所述声纹信息,将所述整段音频数据划分为多段所述第一子音频数据。
进一步地,将各段所述第二子音频数据转换为文字数据,包括:创建各所述发声者的声学模型;根据所述声学模型将各段所述第二子音频数据转换为文字数据。
进一步地,将各段所述第二子音频数据转换为文字数据之后,所述方法还包括:将相同语种的不同的所述发声者对应的所述文字数据进行聚合,得到各所述语种对应的文本。
进一步地,将各所述文字数据翻译为目标语言,包括:获取各所述语种的翻译领域模型;采用所述翻译领域模型将各所述语种对应的文本,翻译为所述目标语言。
进一步地,将各所述文字数据翻译为目标语言之后,所述方法还包括:获取各所述文本的时间戳;按照所述时间戳,将不同的所述目标语言进行聚合,得到最终翻译结果。
进一步地,按照所述时间戳,将不同的所述目标语言进行聚合,得到最终翻译结果之后,所述方法还包括:获取各所述发声者的个性化音库;按照所述时间戳,采用所述个性化音库将各所述文本进行播报。
根据本申请的另一个方面,提供了一种多人多语种识别和翻译装置,包括:第一获取单元,用于获取整段音频数据,所述整段音频数据为多个发声者发出的,且各所述发声者发出的音频数据的语种包括至少一种;第一划分单元,用于将所述整段音频数据,按照发声者的不同划分为多段第一子音频数据;第二划分单元,用于将各段所述第一子音频数据,按照语种的不同划分为至少一段第二子音频数据;转换单元,用于将各段所述第二子音频数据转换为文字数据;翻译单元,用于将各所述文字数据翻译为目标语言。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110574284.5/2.html,转载请声明来源钻瓜专利网。





