[发明专利]用于生成视频的方法、装置、设备和介质在审
申请号: | 202010182273.8 | 申请日: | 2020-03-16 |
公开(公告)号: | CN111415662A | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 殷翔 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L21/10;G10L13/04;G10L13/047;G10L13/08;G10L13/033;G10L25/63 |
代理公司: | 北京海智友知识产权代理事务所(普通合伙) 11455 | 代理人: | 巩靖 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 视频 方法 装置 设备 介质 | ||
本公开的实施例公开了用于生成视频的方法、装置、设备和介质。该用于生成视频的方法的一具体实施方式包括:获取目标用户的用户交互信息;基于用户交互信息,生成针对用户交互信息的反馈信息;基于反馈信息,生成用于指示预设人员执行与反馈信息相对应的动作的视频。该实施方式可以通过生成视频的方式与用户进行信息交互,由此提高了交互方式的多样性,有助于避免用户与真人进行交互过程中产生的羞涩感。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于生成视频的方法、装置、设备和介质。
背景技术
人机交互技术(Human-Computer InteracTIon Techniques)是信息化技术发展的产物,是一种通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。其实现了从人适应计算机到计算机适应人的转化。
目前,人机交互方式不仅包括键盘输入、手柄操作,还包括更加新奇的方式,例如,手指的微小动作、声波在空气中的振动、眼珠和舌头的转动等等,都可以实现信息传递,完成人与机器之间的“对话”。
发明内容
本公开提出了用于生成视频的方法、装置、设备和介质。
第一方面,本公开的实施例提供了一种用于生成视频的方法,该方法包括:获取目标用户的用户交互信息;基于用户交互信息,生成针对用户交互信息的反馈信息;基于反馈信息,生成用于指示预设人员执行与反馈信息相对应的动作的视频。
在一些实施例中,反馈信息为文本信息;以及,基于反馈信息,生成用于指示预设人员执行与反馈信息相对应的动作的视频,包括:确定与文本信息相对应的音素信息和语调信息;基于音素信息和语调信息,生成用于指示预设人员执行与反馈信息相对应的动作的视频。
在一些实施例中,基于音素信息和语调信息,生成用于指示预设人员执行与反馈信息相对应的动作的视频,包括:基于音素信息,确定待生成的语音音频的音频帧数量,以及待生成的图像序列的图像数量,其中,音频帧数量与图像数量相等;基于音素信息和语调信息,生成语音音频和图像序列,其中,语音音频包括的音频帧的数量为音频帧数量,图像序列中的图像的数量为图像数量,图像序列指示预设人员执行与语音音频相对应的动作;将语音音频和图像序列进行合成,得到用于指示预设人员执行与语音音频相对应的动作的视频。
在一些实施例中,语音音频中的音频帧与图像序列中的图像一一对应,图像序列中的图像的口型表征:预设人员发出与该图像相对应的音频帧指示的语音。
在一些实施例中,用户交互信息包括用户视频;以及,基于用户交互信息,生成针对用户交互信息的反馈信息,包括:响应于用户视频中的语音音频满足预设语调调整条件,生成用于指示用户调整音频的语调的反馈信息;响应于用户视频中的图像中的口型符合预设口型调整条件,生成用于指示用户调整口型的反馈信息。
在一些实施例中,基于反馈信息,生成用于指示预设人员执行与反馈信息相对应的动作的视频,包括:响应于用户交互信息包括语音音频,从预先确定的情感类别集合中,确定语音音频所属的情感类别;基于反馈信息和所确定的情感类别,生成用于指示预设人员执行目标动作的视频,其中,目标动作与反馈信息以及所确定的情感类别指示的情感相对应。
在一些实施例中,用户交互信息包括外语语音音频,预设人员为外教;以及,基于反馈信息,生成用于指示预设人员执行与反馈信息相对应的动作的视频,包括:响应于反馈信息为文本信息,将文本信息输入至针对外教预先训练的生成模型,生成与文本信息相对应的语音音频,以及用于指示外教发出所生成的语音音频的图像序列,其中,生成模型用于生成与所输入的文本信息相对应的语音音频,以及用于指示外教发出与所输入的文本信息相对应的语音音频的图像序列;基于所生成的图像序列和与文本信息相对应的语音音频,生成用于指示外教发出与文本信息相对应的语音音频的视频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010182273.8/2.html,转载请声明来源钻瓜专利网。