[发明专利]视频语音转换方法、装置和服务器在审

申请号：	201410461061.8	申请日：	2014-09-11
公开（公告）号：	CN104252861A	公开（公告）日：	2014-12-31
发明（设计）人：	秦铎浩;沈国龙	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L13/02;G06F17/28;H04N5/278
代理公司：	北京品源专利代理有限公司 11332	代理人：	胡彬;路凯
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频语音转换方法装置服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明实施例涉及多媒体处理技术领域，尤其涉及一种视频语音转换方法、装置和服务器。

背景技术

在生活中很多时候会接触到外语类视频，比如好莱坞电影、外语的学习教程视频等，对于外语不好的人来说看这些视频时是需要一些辅助的翻译字幕的，但是很多时候外语类视频是没有字幕的，若观看者听不懂外语，这时的外语类视频对于观看者来讲是没有任何意义的。

现有技术中为了使人们能够看懂外语类视频，主要采用以下三种方式：一种是预先在外语类视频中添加人工翻译得到的字幕；另外一种是将外语类视频制作为译制片，译制片中的语音为人工国语配音；第三种是在视频播放现场，由同声传译的专家使用速记等方式实时对视频中的语音进行人工翻译并传达翻译结果。

现有技术存在的缺陷在于：上述三种方式均由人工实现语音的翻译转换，成本较高、效率低下，并且准确性也难以得到保证。

发明内容

本发明提供一种视频语音转换方法、装置和服务器，以降低视频中语音的翻译成本，提高翻译效率及其准确性。

第一方面，本发明实施例提供了一种视频语音转换方法，包括：

提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号；

对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号；

将得到的各段目标语言的子语音信号与所述视频进行合并，得到包含目标语言的语音信号的视频。

第二方面，本发明实施例还提供了一种视频语音转换装置，包括：

源语音提取单元，用于提取视频中的源语言的语音信号

源语音处理单元，用于将所述源语言的语音信号进行分段，得到至少一段源语言的子语音信号；

目标语音转换单元，用于对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号；

语音视频合并单元，用于将得到的各段目标语言的子语音信号与所述视频进行合并，得到包含目标语言的语音信号的视频。

第三方面，本发明实施例还提供了一种服务器，包括所述视频语音转换装置。

本发明实施例中，提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号，对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号，然后将得到的各段目标语言的子语音信号与该视频进行合并，得到包含目标语言的语音信号的视频，可见，本方案通过语音模型实现了自动翻译转换视频中的语音信号的目的，无需人工参与，降低了成本并提高了翻译转换效率，同时可以避免人工翻译转换所带来的准确性较低的问题，通过自动翻译转换使得其结果准确性可以得到较好保证。

附图说明

图1A为本发明实施例一提供的视频语音转换方法的流程示意图；

图1B为本发明实施例一提供的源语言的语音信号分段方法示意图；

图2A是本发明实施例二提供的视频语音转换方法的流程示意图；

图2B是本发明实施例二提供的用户选择目标语言类型的界面示意图；

图3是本发明实施例三提供的视频语音转换方法的流程示意图；

图4是本发明实施例四提供的视频语音转换装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一：

图1A为本发明实施例一提供的视频语音转换方法的流程图，图1B为本发明实施例一提供的源语言的语音信号的分段示意图。本实施例可适用于需要将视频中的源语言的语音信号转化为目标语言的语音信号的情况，该方法可以由视频语音转换装置来执行，该装置可以设置在服务器中。该方法具体包括如下操作：

101：提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号；