[发明专利]视频生成方法及装置、存储介质、终端在审

申请号：	202210103257.4	申请日：	2022-01-27
公开（公告）号：	CN114550239A	公开（公告）日：	2022-05-27
发明（设计）人：	沈伟林;徐清;宣晓华	申请（专利权）人：	华院计算技术（上海）股份有限公司
主分类号：	G06V40/16	分类号：	G06V40/16;G10L13/08;G10L15/26
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	骆苏华
地址：	200436 上海市静***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频生成方法装置存储介质终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视频生成方法，其特征在于，所述方法包括：

获取待处理文本；

将所述待处理文本转化为音节序列；

将所述音节序列输入至视频生成模型，以得到所述视频生成模型输出的虚拟数字对象的视频；

其中，所述视频生成模型是采用第一训练数据对第一预设模型进行训练得到的，所述第一训练数据包括第一样本音节序列和第一样本图像序列，所述第一样本音节序列是由第一样本文本转化得到的，所述第一样本图像序列中的图像包含所述虚拟数字对象脸部的影像，且所述第一样本图像序列中所述虚拟数字对象的唇形与所述第一样本文本相匹配。

2.根据权利要求1所述的视频生成方法，其特征在于，获取待处理文本包括：获取输入音频；

对所述输入音频进行语音识别，以得到所述待处理文本。

3.根据权利要求1所述的视频生成方法，其特征在于，所述音节序列包括多个音节标识和每个音节标识的时间信息，所述音节标识用于唯一标识音节，所述时间信息用于指示所述音节在所述待处理文本对应的音频信息中的发音时间，将所述待处理文本转化为音节序列包括：

将所述待处理文本转化为音节文本，所述音节文本包括所述多个音节标识；对所述音节文本和所述待处理文本对应的音频信息进行时间对齐处理，以得到所述音节序列。

4.根据权利要求3所述的视频生成方法，其特征在于，对所述音节文本和所述待处理文本对应的音频数据进行时间对齐处理，以得到所述音节序列包括：

对所述音节文本和所述音频数据进行时间对齐处理，以得到时间对齐后的音节文本，所述时间对齐后的音节文本包括所述音节标识与所述发音时间之间的对应关系；

按照预设的时间步长对所述对齐后的音节文本进行采样，以得到所述音节序列。

5.根据权利要求3所述的视频生成方法，其特征在于，将所述待处理文本转化为音节文本包括：

将所述待处理文本转化为初始音节文本，所述初始音节文本包括多个音节；

读取预先构建的音节字典；

根据所述初始音节文本中每个音节在所述音节字典中的位置，确定该音节对应的音节标识。

6.根据权利要求5所述的视频生成方法，其特征在于，所述待处理文本包含汉字和汉字以外的其他类型的文字，其中，所述其他类型的文字的字数占所述待处理文本的总字数的比例小于或等于预设的比例阈值，将所述待处理文本转化为初始音节文本包括：