[发明专利]远程数字人渲染方法、装置及系统有效
申请号: | 202310237747.8 | 申请日: | 2023-03-14 |
公开(公告)号: | CN115953521B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 王新国;张青辉 | 申请(专利权)人: | 世优(北京)科技有限公司 |
主分类号: | G06T15/00 | 分类号: | G06T15/00;G10L15/16;G10L15/18;G10L15/06;G10L25/57;G06T13/40;G06N3/0464;G06N3/0442;G06N3/08;G06F40/30;G06T19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 远程 数字 渲染 方法 装置 系统 | ||
1.一种远程数字人渲染方法,其特征在于,包括:
基于预设的文本集合的大小和所述文本集合中各个文本的长度,来计算所述各个文本的逆文档频率,并利用所述逆文档频率来训练用于语义分析的神经网络模型;
响应于从远程数字人设备接收到用户输入数据,生成用于响应所述用户输入数据的语音数据,利用所述神经网络模型对所述语音数据进行语义分析,并基于语义分析的结果来渲染所述远程数字人,得到所述远程数字人的视频帧;
同步所述语音数据和所述视频帧,并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。
2.根据权利要求1所述的方法,其特征在于,基于预设的文本集合的大小和所述文本集合中各个文本的长度,来计算所述各个文本的逆文档频率,并利用所述逆文档频率来训练用于语义分析的神经网络模型,包括:
基于预设的文本集合的大小、所述文本集合中各个文本的长度、用于控制所述长度对所述各个文本的影响程度的常数因子、和所述文本集合中包含预设单词的文本的数量,来计算所述各个文本的逆文档频率;
基于所述逆文档频率和所述预设单词在所述各个文本中的出现频率,来从所述各个文本中提取特征向量;
基于所提取的特征向量,来训练所述神经网络模型。
3.根据权利要求2所述的方法,其特征在于,基于所提取的特征向量,来训练所述神经网络模型,包括:
将所提取的特征向量输入所述神经网络模型,训练所述神经网络模型,生成用于表示与所述语音数据对应的语音文本信息中的每个单词的词嵌入向量,其中,所述词嵌入向量不仅包含所述每个单词的语义信息,还包含所述每个单词在上下文中的含义;
基于所述词嵌入向量,利用给定已标注的数据集来调整所述神经网络模型的参数,使所述神经网络模型能够进行语义分析。
4.根据权利要求3所述的方法,其特征在于,生成用于表示与所述语音数据对应的语音文本信息中的每个单词的词嵌入向量,包括:
将所述每个单词转换为数值化的向量,并将所述每个单词映射到向量空间中的一个点,其中,所述向量空间中的每个维度表示该单词在不同语义和上下文环境下的语义特征;
在所述向量空间中比较对应于各个单词的各个点之间的相似性,基于所述相似性,对所述各个点进行聚类,以生成用于表示所述语音文本信息中的每个单词的所述词嵌入向量。
5.根据权利要求3所述的方法,其特征在于,生成用于表示与所述语音数据对应的语音文本信息中的每个单词的词嵌入向量,包括:
将所提取的特征向量对应的各个单词作为节点,将所述各个单词之间的关系作为所述节点之间的边,来构建图形结构;
将所述图形结构中的节点和边转换为向量,以生成用于表示所述语音文本信息中的每个单词的词嵌入向量。
6.根据权利要求5所述的方法,其特征在于,将所述图形结构中的节点和边转换为向量,以生成用于表示所述语音文本信息中的每个单词的词嵌入向量,包括:
将所述图形结构中的节点和边转换为向量,并基于转换后得到的向量确定表示所述各个单词的度的度矩阵以及表示所述各个单词之间的关系的邻接矩阵;
基于所述度矩阵、所述邻接矩阵和初始嵌入矩阵,计算所述每个单词的词嵌入向量。
7.根据权利要求6所述的方法,其特征在于,所述初始嵌入矩阵表示所述各个单词的初始向量;所述度矩阵为对角矩阵,所述对角矩阵的对角线上的元素表示所述各个单词的度;所述邻接矩阵表示所述各个单词之间的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于世优(北京)科技有限公司,未经世优(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310237747.8/1.html,转载请声明来源钻瓜专利网。