[发明专利]模型训练方法、动作姿态生成方法、装置、设备及介质有效
| 申请号: | 202110455733.4 | 申请日: | 2021-04-26 |
| 公开(公告)号: | CN113221681B | 公开(公告)日: | 2023-09-26 |
| 发明(设计)人: | 亢祖衡;彭俊清;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/80;G06V40/20 |
| 代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 方法 动作 姿态 生成 装置 设备 介质 | ||
1.一种模型训练方法,其特征在于,包括:
获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量;
提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量;
提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量,其中,所述预设时刻为所述预设时间段中结束时刻的下一时刻;
基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型;
其中,所述获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量,包括:
获取训练动作姿态生成模型所需的训练数据集,并将所述训练数据集转换为多个预设时间长度的数据片段;
对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量;
将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量;
所述对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量,包括:
对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱,并将所述梅尔频谱作为语音特征向量;
对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量;
通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量。
2.根据权利要求1所述的方法,其特征在于,所述基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型,包括:
计算所述输出向量的负对数似然概率,并将所述负对数似然概率作为所述流模型的损失函数;
根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。
3.一种动作姿态生成方法,其特征在于,包括:
获取机器人生成动作姿态所对应的语音信息,并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量;
对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量;
随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求1-2任一项所述的模型训练方法得到的动作姿态生成模型以生成当前时间的机器人姿态动作向量;
更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量,并将下一时间作为所述当前时间,返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤,直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止;
将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
4.根据权利要求3所述的方法,其特征在于,所述将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态,包括:
将所述预设初始姿态动作向量集作为目标姿态动作向量集,并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110455733.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预防压力性损伤的敷料
- 下一篇:语音识别方法、装置、设备和存储介质





