[发明专利]获取目标声音的方法、装置、电子设备及存储介质在审
| 申请号: | 202010756143.0 | 申请日: | 2020-07-31 |
| 公开(公告)号: | CN111899743A | 公开(公告)日: | 2020-11-06 |
| 发明(设计)人: | 蔡勇 | 申请(专利权)人: | 斑马网络技术有限公司 |
| 主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/02;G10L21/0208;G10L21/0272;G10L25/57;G06K9/00 |
| 代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 徐颖聪 |
| 地址: | 200030 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 获取 目标 声音 方法 装置 电子设备 存储 介质 | ||
本发明涉及获取目标声音的方法、装置、电子设备及存储介质,其中,获取目标声音的方法包括如下步骤:获取音视频;基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。本发明实施例的获取目标声音的方法,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。
技术领域
本发明涉及计算机技术领域,具体涉及一种获取目标声音的方法、装置和电子设备以及计算机存储介质。
背景技术
目前机器发出人声的技术已经非常成熟,由于声音合成的效果很好,已经达到无法区分是真人说话还是机器说话,所以诞生了定制声音的需求,比如汽车导航时,发出的导航的声音的是自己亲人的声音,但是目前每完成一个目标人的声音合成模型,需要目标人在安静的环境中录音至少1000句,大约要说2-3小时,录音需求门槛较高,限制了定制声音的市场化推广。
发明内容
为解决上述技术问题,本发明的一个目的在于提供一种获取目标声音的方法,该获取目标声音的方法,较为简单可行,能够较为便利的获取目标声音,进一步的利于定制声音的市场化推广。
本发明的另一个目的在于提供一种实现上述获取目标声音的方法的获取目标声音的装置。
为达到上述目的,本发明采用如下技术方案:
根据本发明第一方面实施例的获取目标声音的方法,包括:
获取音视频;
基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。
优选地,所述音视频为录制完成的音视频,
所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:
对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据;
识别所述音视频中的视频流中的所有人脸特征;
根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系,进而获取目标人的人脸特征以及对应于目标人的声音数据。
优选地,所述对所述音视频中的音频流进行聚类处理,获得各个声纹特征对应的声音数据,具体包括:
对所述音视频中的音频流进行声音分离处理,得到包括多个单人声音的音频流;
对于包括多个单人声音的音频流中的各个音频流段分别提取声纹特征;
根据各个音频流段的声纹特征对所述音频流进行聚类处理,获得各个声纹特征对应的声音数据。
优选地,所述对所述音视频中的音频流进行声音分离处理之后还包括:
对所述音频流进行降噪处理。
优选地,所述音视频为实时录制的音视频,
所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据,具体包括:
识别获取的音视频段中的视频流中的所有人脸特征;
判断获取的所述音视频段中的音频流中是否有声音,当该音视频段中的音频流中有声音时,对该音视频段中的视频流进行识别获取说话人的人脸特征;
判断说话人是否为单人以及该音视频段中的音频流中的声音是否为单人声音;
当说话人为单人且该音视频段中的音频流中的声音为单人声音时,将该音视频段中的音频流中的声音数据与获取的说话人的人脸特征相对应;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斑马网络技术有限公司,未经斑马网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010756143.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种推力轴承弹性支撑
- 下一篇:投屏方法、控制装置、终端及存储介质





