[发明专利]合成语音与原始视频匹配方法、系统、装置及存储介质在审
| 申请号: | 202011373933.7 | 申请日: | 2020-11-30 |
| 公开(公告)号: | CN112562719A | 公开(公告)日: | 2021-03-26 |
| 发明(设计)人: | 李嘉雄;王伦基;叶俊杰;李权;成秋喜;胡玉针;朱杰;黄桂芳;韩蓝青 | 申请(专利权)人: | 清华珠三角研究院;赛业(广州)生物科技有限公司 |
| 主分类号: | G10L21/043 | 分类号: | G10L21/043;G10L25/57;H04N21/44;H04N21/4402;H04N21/439;H04N5/262 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 常柯阳 |
| 地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 合成 语音 原始 视频 匹配 方法 系统 装置 存储 介质 | ||
本发明公开了一种合成语音与原始视频匹配方法、系统、装置及存储介质,其中所述方法包括:获取原始视频的第一长度;获取合成语音的第二长度;根据所述第一长度与所述第二长度的长度差异,对所述原始视频和/或所述合成语音进行变速处理。本申请使得变速处理后的视频与语音的长度一致,提高用户的观感体验。本申请可广泛应用于视频处理领域。
技术领域
本申请涉及视频处理领域,尤其涉及一种合成语音与原始视频匹配方法、系统、装置及存储介质。
背景技术
随着互联网的不断发展,人们对信息获取的速度、广度及深度要求越来越高也越来越直观,通信行业经历了语音时代、数据时代,现正以极快的步伐迈入视频时代,视频已成为信息传递的主要新载体,也逐渐成为大众群体获取及分享信息的主流方式。相较于文字、语音等形式,以视频为主的信息传递介质和功能载体可以为人们带来更多的便利,因此“视联网”已成为当今互联网的发展趋势。
但由于目前不同民族、国家、地域的语言文化存在较大差异,也无法做到全球语言统一,因此从不同国家产出的音视频文件必然是跨语种的,这使得信息在交流中遇到较大障碍,信息传递的流畅性与实时性也大打折扣。为此,相关技术提出一种视频翻译方法,将说话人的语言翻译为指定语言并配合生成同步的唇形,让视频中的说话人看起来像是在使用指定语言在说话,提高用户的观感体验。而实现该视频翻译方法的过程中,需要对说话人的原始视频进行文本翻译,再合成音频,由于不同语种的文本存在不一致的现象,因此合成音频与原始视频会出现长度不匹配的情况,影响视频的观感。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种合成语音与原始视频匹配方法、系统、装置及存储介质,能够匹配视频翻译过程中合成音频与原始视频的长度。
第一方面,本申请一些实施例提供了一种合成语音与原始视频匹配方法,包括:获取原始视频的第一长度;获取合成语音的第二长度;根据所述第一长度与所述第二长度的长度差异,对所述原始视频和/或所述合成语音进行变速处理。得到长度匹配的原始视频和合成语音。
在一些实施例中,所述第一长度为第一时间长度,所述第二长度为第二时间长度,所述长度差异为所述第一时间长度与所述第一时间长度的比值,所述根据所述长度差异,对所述原始视频和/或所述合成语音进行变速处理,包括:当所述长度差异在预设的第一阈值区间内,根据第一视频变速参数对所述原始视频作第一减速处理,并根据第一语音变速参数对所述合成语音作第一加速处理;当所述长度差异在预设的第二阈值区间内,根据第二语音变速参数对所述合成语音作第一变速处理;当所述长度差异在预设的第三阈值区间内,根据第二视频变速参数对所述原始视频作第二加速处理,并根据第三语音变速参数对所述合成语音作第二减速处理。
在一些实施例中,所述方法还包括所述原始视频作局部变速处理的步骤,该步骤具体包括:确定所述原始视频中任意一帧中的若干人体关键点;根据当前帧的所述人体关键点与第一视频帧的所述人体关键点之间的欧式距离以及所述原始视频的时间序列,确定所述原始视频中人体动作幅度与所述时间序列的关系;其中,第一视频帧是所述原始视频中与当前帧间隔预设帧数的视频帧;根据所述原始视频中人体动作幅度与所述时间序列的关系,确定若干局部变速区间;根据所述长度差异,在所述局部变速区间,对所述原始视频作局部变速处理。
在一些实施例中,所述根据所述长度差异,在所述局部变速区间,对所述原始视频作局部变速处理,包括:确定视频变速上限参数和视频变速下限参数;在若干所述局部变速区间,根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理。
在一些实施例中,所述在若干所述局部变速区间,根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理,包括:当所述长度差异在预设的第一阈值区间内,且所述第一视频变速参数大于所述视频变速上限参数,根据所述视频变速上限参数,对所述原始视频作第一减速处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华珠三角研究院;赛业(广州)生物科技有限公司,未经清华珠三角研究院;赛业(广州)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011373933.7/2.html,转载请声明来源钻瓜专利网。





