[发明专利]远程数字人渲染方法、装置及系统有效
申请号: | 202310237747.8 | 申请日: | 2023-03-14 |
公开(公告)号: | CN115953521B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 王新国;张青辉 | 申请(专利权)人: | 世优(北京)科技有限公司 |
主分类号: | G06T15/00 | 分类号: | G06T15/00;G10L15/16;G10L15/18;G10L15/06;G10L25/57;G06T13/40;G06N3/0464;G06N3/0442;G06N3/08;G06F40/30;G06T19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 远程 数字 渲染 方法 装置 系统 | ||
本申请提供了一种远程数字人渲染方法、装置及系统,该方法包括:基于预设的文本集合的大小和所述文本集合中各个文本的长度,来计算所述各个文本的逆文档频率,并利用所述逆文档频率来训练用于语义分析的神经网络模型;响应于从远程数字人设备接收到用户输入数据,生成用于响应所述用户输入数据的语音数据,利用所述神经网络模型对所述语音数据进行语义分析,并基于语义分析的结果来渲染所述远程数字人,得到所述远程数字人的视频帧;同步所述语音数据和所述视频帧,并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。本申请解决了现有技术中远程数字人渲染效果不逼真、交互体验较差的技术问题。
技术领域
本申请涉及图像通信技术领域,具体而言,涉及一种远程数字人渲染方法、装置及系统。
背景技术
远程数字人是一种由人工智能和自然语言处理技术构建的虚拟代理人,可以模拟人类的语言、行为和思考方式,来提供一系列的服务,如客户支持、销售礼宾、日程管理、财务顾问、品牌大使、医疗保健顾问、数字影响者、以及数据输入和处理等。
远程数字人通常是由人工智能和机器学习技术驱动的,可以通过自然语言处理技术理解人类语言的含义和意图。这些远程数字人可以使用语音或文本进行通信,而且可以根据用户的要求和输入来执行任务。远程数字人可以被编程为识别和响应特定的指令,可以快速地处理大量的数据,并在需要时提供信息和建议。
远程数字人通常是通过互联网进行工作的。用户可以通过远程数字人设备例如预设的固定终端、手机、平板电脑或计算机与远程数字人进行互动,而无需进行面对面交流。远程数字人也可以在不同的时区和地点工作,在用户需要时随时提供服务。
远程数字人通常使用计算机图形学和计算机视觉技术进行渲染。其中,计算机图形学利用三维建模、光照、纹理贴图、动画等技术,生成远程数字人的外观和动作。但是,采用这种方式渲染出的远程数字人比较程式化,可能无法被渲染地像真正的人类一样进行自然的交互和表现,这会影响用户对远程数字人的体验。
针对上述远程数字人渲染效果不逼真、交互体验较差的技术问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种远程数字人渲染方法、装置及系统,以解决现有技术中远程数字人渲染效果不逼真、交互体验较差的问题。
根据本申请实施例的一个方面,提供了一种远程数字人渲染方法,包括:基于预设的文本集合的大小和所述文本集合中各个文本的长度,来计算所述各个文本的逆文档频率,并利用所述逆文档频率来训练用于语义分析的神经网络模型;响应于从远程数字人设备接收到用户输入数据,生成用于响应所述用户输入数据的语音数据,利用所述神经网络模型对所述语音数据进行语义分析,并基于语义分析的结果来渲染所述远程数字人,得到所述远程数字人的视频帧;同步所述语音数据和所述视频帧,并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。
根据本申请实施例的另一个方面,提供了一种远程数字人渲染装置,包括:训练模块,被配置为基于预设的文本集合的大小和所述文本集合中各个文本的长度,来计算所述各个文本的逆文档频率,并利用所述逆文档频率来训练用于语义分析的神经网络模型;生成模块,被配置为响应于从远程数字人设备接收到用户输入数据,生成用于响应所述用户输入数据的语音数据,利用所述神经网络模型对所述语音数据进行语义分析,并基于语义分析的结果来渲染所述远程数字人,得到所述远程数字人的视频帧;推流模块,被配置为同步所述语音数据和所述视频帧,并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。
根据本申请实施例的又一个方面,提供了一种远程数字人渲染方法,包括:响应于从远程数字人设备接收到用户输入数据,生成用于响应所述用户输入数据的语音数据;基于所述语音数据,利用物理模拟方法来模拟远程数字人的生理特征,并基于所述生理特征对所述远程数字人进行渲染,得到所述远程数字人的视频帧;同步所述语音数据和所述视频帧,并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于世优(北京)科技有限公司,未经世优(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310237747.8/2.html,转载请声明来源钻瓜专利网。