[发明专利]多媒体数据生成方法、装置、电子设备及计算机存储介质在审
| 申请号: | 201911199131.6 | 申请日: | 2019-11-29 |
| 公开(公告)号: | CN112885318A | 公开(公告)日: | 2021-06-01 |
| 发明(设计)人: | 邓俊祺 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G10H1/36 | 分类号: | G10H1/36;G10H1/40;G10H7/00 |
| 代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;赵海娇 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多媒体 数据 生成 方法 装置 电子设备 计算机 存储 介质 | ||
本发明实施例提供了一种多媒体数据生成方法、装置、电子设备及计算机存储介质。其中,所述多媒体数据生成方法,其包括:对获取的待处理人声音频进行频谱的能量谱和差分谱分析,根据分析结果确定所述待处理人声音频中的人声音节信息;根据伴奏音频的节拍信息,对所述人声音节信息指示的人声音节进行处理,以生成与所述伴奏音频匹配的目标人声音频;对所述目标人声音频和所述伴奏音频进行合成,生成多媒体数据。通过本发明实施例,可以提升适用性。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种多媒体数据生成方法、装置、电子设备及计算机存储介质。
背景技术
随着科技和互联网技术的发展和成熟,应用程序的种类和功能愈加丰富。例如,供用户进行日常通信和交流的即时通讯类应用程序、提供视频等多媒体资源的播放类应用程序等。而K歌类应用程序包括但不限于基于桌面PC 的应用程序、基于微信等平台的小程序、基于智能移动设备的应用程序、以及基于web技术的web应用等,由于其具有歌曲录制和发布的功能,而且兼具社交功能,使得其深受广大用户喜爱。但是,现有的K歌类应用程序中,用户在生成多媒体数据,如音频数据时,通常是在播放伴奏的过程中录制用户的声音,再将录制的声音和伴奏根据时间戳进行合成,从而生成歌曲。
这使得应用程序生成歌曲的方式较为单一,用户需要随着伴奏同步唱歌,在一些不方便发出声音的场景或者环境音较为嘈杂的场景中不能适用,导致适用能力较差。
发明内容
有鉴于此,本发明实施例提供一种多媒体数据生成方案,以解决上述部分或全部问题。
根据本发明实施例的第一方面,提供了一种多媒体数据生成方法,其包括:对获取的待处理人声音频进行频谱的能量谱和差分谱分析,根据分析结果确定所述待处理人声音频中的人声音节信息;根据伴奏音频的节拍信息,对所述人声音节信息指示的人声音节进行处理,以生成与所述伴奏音频匹配的目标人声音频;对所述目标人声音频和所述伴奏音频进行合成,生成多媒体数据。
根据本发明实施例的第二方面,提供了一种多媒体数据生成方法,包括:对获取的待处理人声音频进行频谱的能量谱和差分谱分析,根据分析结果确定所述待处理人声音频中的人声音节信息;获取伴奏音频和/或无音频的视频数据中用于进行人声匹配的节点信息,根据所述节点信息对所述人声音节信息指示的人声音节进行处理,以生成目标人声音频;将所述伴奏音频和所述视频数据中的至少一个与所述目标人声音频进行合成,生成多媒体数据。
根据本发明实施例的第三方面,提供了一种多媒体数据处理方法,包括:根据触发操作采集包含人声音频的音频数据;获取根据所述音频数据生成的多媒体数据,所述多媒体数据通过识别所述音频数据的人声音节信息,以及根据伴奏音频和/或无音频的视频数据中的用于进行人声匹配的节点信息,对所述人声音节信息指示的人声音节进行处理,获得目标人声音频,并将所述伴奏音频和无音频的视频数据中的至少一个与所述目标人声音频合成得到;在展示界面提供所述多媒体数据。
根据本发明实施例的第四方面,提供了一种多媒体数据生成装置,其包括:第一分析模块,用于对获取的待处理人声音频进行频谱的能量谱和差分谱分析,根据分析结果确定所述待处理人声音频中的人声音节信息;第一目标人声生成模块,用于根据伴奏音频的节拍信息,对所述人声音节信息指示的人声音节进行处理,以生成与所述伴奏音频匹配的目标人声音频;第一合成模块,用于对所述目标人声音频和所述伴奏音频进行合成,生成多媒体数据。
根据本发明实施例的第五方面,提供了一种多媒体数据生成装置,包括:第二分析模块,用于对获取的待处理人声音频进行频谱的能量谱和差分谱分析,根据分析结果确定所述待处理人声音频中的人声音节信息;第二目标人声生成模块,用于获取伴奏音频和/或无音频的视频数据中用于进行人声匹配的节点信息,根据所述节点信息对所述人声音节信息指示的人声音节进行处理,以生成目标人声音频;第二合成模块,用于将所述伴奏音频和所述视频数据中的至少一个与所述目标人声音频进行合成,生成多媒体数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911199131.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包含皮革纤维的针织面料及其制造方法
- 下一篇:自动排液真空泵系统设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





