[发明专利]多人视频方法、装置、设备及存储介质有效
| 申请号: | 201811601902.5 | 申请日: | 2018-12-26 |
| 公开(公告)号: | CN109817221B | 公开(公告)日: | 2021-01-01 |
| 发明(设计)人: | 张冉 | 申请(专利权)人: | 出门问问信息科技有限公司 |
| 主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/04;G10L13/02;G06K9/00;H04N7/14;G10L25/51 |
| 代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 李伟波;韩德凯 |
| 地址: | 100094 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 方法 装置 设备 存储 介质 | ||
1.一种多人视频方法,其特征在于,包括:
生成用户的声纹;
生成用户的人像模型;
为所述用户配置身份识别号码;
通过所述身份识别号码,匹配所述用户的声纹和人像模型;
通过获取说话人的声音识别说话人的声纹,调取说话人的声纹对应的身份识别号码,基于说话人的身份识别号码,调取说话人的人像模型;以及
实时的合成说话人的声音和人像模型。
2.根据权利要求1所述的多人视频方法,其特征在于,生成用户的声纹包括:
录入用户的多个声音,并对多个声音进行训练,生成用户的声纹。
3.根据权利要求1或2所述的多人视频方法,其特征在于,生成用户的人像模型包括:
录入用户的多个照片和/或视频,提取每个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征,基于多个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征,生成用户的人像模型。
4.根据权利要求2或3所述的多人视频方法,其特征在于,
如果多人说话或者对话,基于各个说话人的声音识别各个说话人的声纹,基于各个说话人的声纹获取各个说话人的身份识别号码,基于各个说话人的身份识别号码,调取各个说话人的人像模型。
5.根据权利要求2或3所述的多人视频方法,其特征在于,还包括:
如果多人说话或者对话,基于各个说话人的声音识别各个说话人的声纹,基于各个说话人的声纹识别各个说话人的性别,基于各个说话人的性别将说话人分为两组,对于每组说话人,基于各个说话人的声纹获取各个说话人的身份识别号码,基于各个说话人的身份识别号码,调取各个说话人的人像模型。
6.根据权利要求4或5所述的多人视频方法,其特征在于,
用户的声纹和/或用户的人像模型存储在终端和/或云端。
7.根据权利要求3至6中任一项所述的多人视频方法,其特征在于,合成的说话人的声音和人像模型配置在虚拟场景中。
8.一种多人视频装置,其特征在于,包括:
声纹生成模块,所述声纹生成模块生成用户的声纹;
人像模型生成模块,所述人像模型生成模块生成用户的人像模型;
身份识别号码配置模块,所述身份识别号码配置模块为所述用户配置身份识别号码;以及
视频模块,所述视频模块通过获取说话人的声音识别说话人的声纹,调取说话人的声纹对应的身份识别号码,基于说话人的身份识别号码,调取说话人的人像模型;以及实时的合成说话人的声音和人像模型。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至7中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问信息科技有限公司,未经出门问问信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811601902.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音识别方法、装置及系统
- 下一篇:一种年龄识别方法、装置及终端设备





