[发明专利]用于生成视频的方法、装置、设备和介质有效

申请号：	202011270731.X	申请日：	2020-11-13
公开（公告）号：	CN112383721B	公开（公告）日：	2023-04-07
发明（设计）人：	汤本来;殷翔;谢添翼	申请（专利权）人：	北京有竹居网络技术有限公司
主分类号：	H04N5/265	分类号：	H04N5/265;G10L15/02;G06V40/16
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	魏嘉熹
地址：	101299 北京市平***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于生成视频方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开的实施例公开了用于生成视频的方法和装置。该方法的一具体实施方式包括：获取从音频提取的声学特征；根据声学特征，确定目标人的特征，其中，目标人的特征包括目标人针对音频的声学特征和人脸关键点；根据人脸关键点，生成目标人的视频。该实施方式实现了从给定音频到目标人的视频和音频之间的便捷转换。

技术领域

本公开的实施例涉及计算机技术领域，具体涉及用于生成视频的方法和装置。

背景技术

移动网络技术的快速发展带来了更加丰富的网络环境，越来越多的联网设备每天都会产生海量的数据，而这些数据中音视频数据的占比越来越大。音视频已经成为目前用户浏览最多的信息类型。

许多视频平台都在开发和使用各种人工智能技术以提升用户的观看体验，让视频服务和功能可以更贴近用户的真实需求。例如，一些视频网站和教学类客户端应用开始使用虚拟人技术来合成视频供用户观看。当前，许多的研究人员也提出了各种不同的想法以提供更多的视频服务和功能，但是让这些想法实现真正的应用落地还需要继续不断的研究和探索。

发明内容

本公开的实施例提出了用于生成视频的方法和装置。

第一方面，本公开的实施例提供了一种用于生成视频的方法，该方法包括：获取从音频提取的声学特征；根据声学特征，确定目标人的特征，其中，目标人的特征包括目标人针对音频的声学特征和人脸关键点；根据人脸关键点，生成目标人的视频。

第二方面，本公开的实施例提供了一种用于生成视频的装置，该装置包括：获取单元，被配置成获取从音频提取的声学特征；确定单元，被配置成根据声学特征，确定目标人的特征，其中，目标人的特征包括目标人针对音频的声学特征和人脸关键点；生成单元，被配置成根据人脸关键点，生成目标人的视频。

第三方面，本公开的实施例提供了一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本公开的实施例提供的用于生成视频的方法和装置，根据任意给定的音频的声学特征，生成目标人针对该音频的声学特征和人脸关键点，然后利用目标人针对该音频的人脸关键点生成目标人的视频，从而实现从给定音频到目标人的视频之间的便捷转换，并且这种视频生成方法可以应用于许多指定音频生成视频的场景中。另外，由于在生成目标人针对给定音频的人脸关键点的同时，联合生成了目标人针对给定音频的声学特征，所以可以尽量保证生成的目标人的视频中的脸部与目标人针对给定音频的音频之间的一致性，从而提升生成的目标人的视频的自然度和流畅度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于生成视频的方法的一个实施例的流程图；

图3是根据本公开的实施例的用于生成视频的方法的一个应用场景的示意图；

图4是根据本公开的用于生成视频的方法的又一个实施例的流程图；

图5是根据本公开的用于生成视频的装置的一个实施例的结构示意图；

图6是适于用来实现本公开的实施例的电子设备的结构示意图。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司，未经北京有竹居网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】