[发明专利]视频配音方法、装置、计算机设备及计算机可读存储介质在审
申请号: | 201911248806.1 | 申请日: | 2019-12-09 |
公开(公告)号: | CN110933330A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 吴晗;李文涛 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
主分类号: | H04N5/265 | 分类号: | H04N5/265;H04N5/04 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢惠童 |
地址: | 510660 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 配音 方法 装置 计算机 设备 可读 存储 介质 | ||
本申请公开了一种视频配音方法、装置、计算机设备及计算机可读存储介质,属于计算机技术领域。本申请通过显示配音界面,该配音界面上显示有目标视频的多个视频帧,基于在该配音界面所采集的文本信息以及被选中的音色类型,生成与该文本信息相对应的语音数据,该语音数据的音频特征基于该音色类型确定,基于该多个视频帧中被选中的目标视频帧,将该语音数据添加至目标视频中,该语音数据的起始播放时刻与该目标视频帧的播放时刻相同,在上述视频配音过程中,可以将用户提供的文本信息按照特定的音色转换为配音,添加到视频中,无需人工配音,提高了配音效率,进而可以提高视频制作效率。
技术领域
本申请涉及计算机技术领域,特别涉及一种视频配音方法、装置、计算机设备及计算机可读存储介质。
背景技术
视频配音是视频制作过程中的一个重要环节,在录制视频时,录制现场所收集的声音往往会存在噪音,影响视频效果,因此,在目前的视频制作过程中,通常在视频录制完成后,需要在专业录音棚或其他安静的环境中,由人工单独录制一段语音,再将语音和视频进行合成,但是这种人工配音的方式,耗费的时间成本较高,配音效率低,进而导致视频制作的周期较长,制作效率低。
发明内容
本申请实施例提供了一种视频配音方法、装置、计算机设备及计算机可读存储介质,可以解决相关技术中视频配音效率低的问题。该技术方案如下:
一方面,提供了一种视频配音方法,该方法包括:
显示配音界面,该配音界面上显示有目标视频的多个视频帧;
基于在该配音界面所采集的文本信息以及被选中的音色类型,生成与该文本信息相对应的语音数据,该语音数据的音频特征基于该音色类型确定;
基于该多个视频帧中被选中的目标视频帧,将该语音数据添加至该目标视频中,该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。
在一种可能实现方式中,该基于在该配音界面所采集的文本信息以及音色类型,生成与该文本信息相对应的语音数据,包括:
获取该音色类型所对应的音色特征;
获取该文本信息对应的音素序列;
基于该音素序列以及该音色特征,生成该语音数据。
在一种可能实现方式中,该基于该音素序列以及该音色特征,生成该语音数据,包括:
对该文本信息进行情绪识别,得到该文本信息所对应的情绪特征,该情绪特征用于指示该文本信息对应的情绪信息;
基于该音素序列、该音色特征以及该情绪特征,生成语音数据,该语音数据的音频特征基于该情绪信息的变化而变化。
在一种可能实现方式中,该基于该音素序列以及该音色特征,生成该语音数据,包括:
获取该目标视频中背景音乐的音频特征;
基于该音素序列、该音色特征以及该背景音乐的音频特征,生成该语音数据,该语音数据的音频特征基于该背景音乐音频特征的变化而变化。
在一种可能实现方式中,该基于在该配音界面所采集的文本信息以及音色类型,生成与该文本信息相对应的语音数据之后,该方法还包括:
接收对该语音数据的编辑指令,该编辑指令携带有第一音量信息以及第二音量信息;
基于该第一音量信息调整该语音数据的播放音量,基于该第二音量信息调整该目标视频的播放音量。
在一种可能实现方式中,该显示配音界面之后,该方法还包括:
当接收到文本添加指令时,生成与该文本信息相对应的目标图像;
将该目标图像添加至该目标视频帧的目标位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911248806.1/2.html,转载请声明来源钻瓜专利网。