[发明专利]获取目标声音的方法、装置、电子设备及存储介质在审

申请号：	202010756143.0	申请日：	2020-07-31
公开（公告）号：	CN111899743A	公开（公告）日：	2020-11-06
发明（设计）人：	蔡勇	申请（专利权）人：	斑马网络技术有限公司
主分类号：	G10L17/00	分类号：	G10L17/00;G10L17/02;G10L21/0208;G10L21/0272;G10L25/57;G06K9/00
代理公司：	上海华诚知识产权代理有限公司 31300	代理人：	徐颖聪
地址：	200030 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	获取目标声音方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及获取目标声音的方法、装置、电子设备及存储介质，其中，获取目标声音的方法包括如下步骤：获取音视频；基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。本发明实施例的获取目标声音的方法，较为简单可行，能够较为便利的获取目标声音，进一步的利于定制声音的市场化推广。

技术领域

本发明涉及计算机技术领域，具体涉及一种获取目标声音的方法、装置和电子设备以及计算机存储介质。

背景技术

目前机器发出人声的技术已经非常成熟，由于声音合成的效果很好，已经达到无法区分是真人说话还是机器说话，所以诞生了定制声音的需求，比如汽车导航时，发出的导航的声音的是自己亲人的声音，但是目前每完成一个目标人的声音合成模型，需要目标人在安静的环境中录音至少1000句，大约要说2-3小时，录音需求门槛较高，限制了定制声音的市场化推广。

发明内容

为解决上述技术问题，本发明的一个目的在于提供一种获取目标声音的方法，该获取目标声音的方法，较为简单可行，能够较为便利的获取目标声音，进一步的利于定制声音的市场化推广。

本发明的另一个目的在于提供一种实现上述获取目标声音的方法的获取目标声音的装置。

为达到上述目的，本发明采用如下技术方案：

根据本发明第一方面实施例的获取目标声音的方法，包括：

获取音视频；

基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据。

优选地，所述音视频为录制完成的音视频，

所述基于所述音视频获取目标人的人脸特征以及对应于目标人的声音数据，具体包括：

对所述音视频中的音频流进行聚类处理，获得各个声纹特征对应的声音数据；

识别所述音视频中的视频流中的所有人脸特征；

根据所述音视频的视频流和音频流得到所述声纹特征和所述人脸特征的对应关系，进而获取目标人的人脸特征以及对应于目标人的声音数据。