[发明专利]用于影视智能创作的情景互动的短视频生成方法及系统有效
| 申请号: | 202211354722.8 | 申请日: | 2022-11-01 | 
| 公开(公告)号: | CN115496863B | 公开(公告)日: | 2023-03-21 | 
| 发明(设计)人: | 毛瑞琛;马诗洁;耿卫东;李聪聪;杨森 | 申请(专利权)人: | 之江实验室 | 
| 主分类号: | G06T17/00 | 分类号: | G06T17/00;G06T7/40;G06T5/50;G06V20/62;G06V30/19;G06V40/20 | 
| 代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 | 
| 地址: | 311100 浙江省杭*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 用于 影视 智能 创作 情景 互动 视频 生成 方法 系统 | ||
1.一种用于影视智能创作的情景互动的短视频生成方法,其特征在于,包括以下步骤:
步骤一,根据用户输入的场景描述,通过预训练的跨模态文本图像匹配模型,从场景素材库中获取到对应描述的场景图片;
步骤二,输入步骤一获取的场景图片,经过深度图估计模型,输出深度信息后利用预设的相机参数计算得到场景图片对应的三维信息;
步骤三,根据用户输入的动作描述,经过预训练语言模型,从动作素材库中筛选得到一系列跟描述相匹配的动作图片,组成对应描述的候选动作序列,从中得到所需动作图片组成动作序列;
步骤四,用户上传演员人物的多个视角的全身照片,通过人体三维模型估计算法对人体参数进行估计,同时对人体模型进行纹理贴图,获取该演员人物的带纹理的人体模型;
步骤五,用户输入运动轨迹,结合三维信息、动作序列和带纹理的人体模型,合成人物动作的前景短视频;
步骤六,将步骤五得到的前景短视频和步骤一的场景图像进行融合,获取情景互动的短视频。
2.如权利要求1所述的一种用于影视智能创作的情景互动的短视频生成方法,其特征在于,所述步骤一具体包括以下子步骤:
步骤(1.1),将用户输入的场景描述,经过预训练的跨模态文本图像匹配模型CLIP的文本编码器text encoder处理,得到对应的文本特征向量
步骤(1.2),将场景素材库中的场景图片,输入预训练的跨模态文本图像匹配模型CLIP的图片编码器image encoder,获取每个图片对应的图像特征向量
步骤(1.3),对文本特征向量和图像特征向量计算相似度,获取同文本语义相近的一系列场景图片,供用户选择,具体为:计算文本特征向量和图像特征向量的余弦距离,将距离相近前几个的向量对应的图片作为匹配结果返回,余弦距离计算公式如下:
,
j表示文本特征向量序号,n为大于0的整数;
步骤(1.4),用户根据返回的图片结果,选择所需图片作为最终合成视频的场景图片Image
3.如权利要求2所述的一种用于影视智能创作的情景互动的短视频生成方法,其特征在于,所述步骤二具体为:输入步骤一获取的场景图片至深度图估计模型,所述深度图估计模型为DPT模型,DPT模型使用ViT作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息;再通过预设的相机参数FOV和图像分辨率(H,W)计算归一化焦距(fx ,fy)和中心像素坐标(u0 ,v0 ),计算得到图像对应的三维信息(x,y,z),其中图像高为H,宽为W,所述三维信息(x,y,z)的计算公式如下所示:
。
4.如权利要求3所述的一种用于影视智能创作的情景互动的短视频生成方法,其特征在于,所述步骤三具体包括以下子步骤:
步骤(3.1),将用户输入的动作描述,经过预训练语言模型处理,得到对应的动作文本特征向量;
步骤(3.2),将动作素材库中的动作序列对应的语义标签,送入预训练语言模型处理,获取语义标签对应的标签文本特征向量;
步骤(3.3),对动作文本特征向量和标签文本特征向量计算余弦相似度,获取相似度排名靠前的标签所对应的动作序列和动作序列所对应的原始渲染视频,用户从中选择动作图片组成所需动作序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211354722.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种静态外壁管状电镀铀装置
 - 下一篇:一种用于建筑外墙的涂料
 





