[发明专利]多媒体文件播放系统、相关方法、装置及设备在审
申请号: | 202010376043.5 | 申请日: | 2020-05-06 |
公开(公告)号: | CN113630620A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 周明智;龙舟 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04N21/233 | 分类号: | H04N21/233;H04N21/27;H04N21/43;H04N21/439;H04N21/442;H04N5/278;G06F40/58;G06Q10/06 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 钱秀茹 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多媒体 文件 播放 系统 相关 方法 装置 设备 | ||
本申请公开了多媒体文件播放相关系统、方法、装置及设备。所述系统,针对客户端播放器当前播放的多媒体文件,通过客户端提取与播放进度对应的音频流;向服务端发送所述音频流;以及,在播放器中显示服务端回送的所述音频流的语音翻译文本;服务端通过语音翻译模型,确定所述语音翻译文本,向客户端回送所述语音翻译文本。采用这种处理方式,使得根据当前用户产生的音频流调用语音翻译服务,实现语音即时翻译;因此,可以有效确保用户观看新文件也可同步显示字幕,达到“所听既所见”的实时字幕效果,同时可满足不同语言用户的字幕观看需求。
技术领域
本申请涉及语音处理技术领域,具体涉及多媒体文件播放系统、方法和装置,语音翻译模型质量评估系统和方法,以及电子设备。
背景技术
随着互联网技术的不断发展,视频网站已经得到了日益广泛的应用。视频网站在用户观看音视频文件时,可精准地匹配音视频文件的当前播放进度,实时显示多国语言字幕,以便用户更好的理解音视频内容。
目前,视频网站主要是采用离线语音翻译方案,基于视频文件生成多国语言字幕。具体而言,该方案通过用户提供的完整语音文件,调用语音识别与翻译服务对整体文件进行识别,在语音文件整体翻译完后,用户即可看到声画与翻译字幕同步的实时字幕结果。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:1)对于新增音视频,由于要通过离线语音翻译方式生成新增文件的语音翻译字幕,因此用户需要等待一定的时间,待系统对新增文件整体进行语音识别与翻译处理完成之后,才可以看到新增音视频的同步语音翻译字幕,但在新增文件整体翻译完前,只能观看没有字幕的文件,无法做到“所听既所见”的实时字幕效果;2)离线语音翻译通常只生成一种常用语言的翻译字幕,无法满足不同语言用户的字幕观看需求。综上所述,如何实现实时语音翻译,以达到声画与字幕同步的效果,满足不同语言用户的观看需求,成为本领域技术人员迫切需要解决的技术问题。
发明内容
本申请提供多媒体文件播放系统,以解决现有技术存在的观看新文件时无法显示字幕的问题。本申请另外提供多媒体文件播放方法和装置,语音翻译模型质量评估系统和方法,以及电子设备。
本申请提供一种多媒体文件播放系统,包括:
客户端,用于针对播放器当前播放的多媒体文件,提取与播放进度对应的音频流;向服务端发送所述音频流;以及,在播放器中显示服务端回送的所述音频流的语音翻译文本;
服务端,用于通过语音翻译模型,确定所述语音翻译文本,向客户端回送所述语音翻译文本。
本申请还提供一种多媒体文件播放方法,包括:
针对播放器当前播放的多媒体文件,提取与播放进度对应的音频流;
向服务端发送所述音频流;
在播放器中显示服务端回送的所述音频流的语音翻译文本。
可选的,所述播放器包括浏览器播放器;
所述提取与播放进度对应的音频流,包括:
通过浏览器播放器的数据流捕捉模块,获取所述音频流。
可选的,所述音频流包括毫秒级时长的音频流。
可选的,所述方法还包括:
对所述音频流执行压缩处理;
所述向服务端发送所述音频流,包括:
将压缩后的音频流发送至所述服务端。
可选的,所述对所述音频流执行压缩处理,采用以下方式的至少一种:
对所述音频流执行降采样处理;
根据所述音频流的音量数据,对所述音频流执行增益降低处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010376043.5/2.html,转载请声明来源钻瓜专利网。