[发明专利]一种基于元宇宙的唇语学习辅助训练系统及其应用在审
| 申请号: | 202310371018.1 | 申请日: | 2023-04-07 |
| 公开(公告)号: | CN116524791A | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 田佳钦;何思珝;赵勤劳;肖阳;王然 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G09B21/00 | 分类号: | G09B21/00;G10L13/02;G10L25/24;G06V40/16;G06F18/22;G06F40/20;G06V20/40;G06V10/25;G06V10/764;G06V10/774;G06T13/40;G06F3/01 |
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 徐美琳 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 宇宙 学习 辅助 训练 系统 及其 应用 | ||
1.一种基于元宇宙的唇语学习辅助训练系统,其特征在于,包括:唇读训练模块、虚拟人对答沟通模块和用户个人中心模块;
所述唇读训练模块,用于存储预先采集的标准唇形视频,建立元宇宙学习场景,使得用户在元宇宙学习场景中通过标准唇形视频进行唇读训练,从用户通过标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本,计算用户唇读的文本和标准唇形视频的文本之间的相似度,通过相似度判断用户的唇读训练效果;
所述虚拟人对答沟通模块,用于建立元宇宙社交场景,从用户在元宇宙社交场景中讲话的视频中识别社交文本,将社交文本在对答过程的回答文本转化为音频后与人脸结合形成虚拟人,使得用户在元宇宙社交场景中与虚拟人进行对答沟通;
所述用户个人中心模块,用于记录和反馈用户的唇读训练效果,将用户的音频与人脸结合形成用户的虚拟形象,使得用户在元宇宙社交场景中以虚拟形象与使用唇语学习辅助训练系统的其他用户进行对答沟通。
2.如权利要求1所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述唇读训练模块包括:视频预处理模块、唇语识别模块和反馈模块,
所述视频预处理模块,用于存储预先采集的多语种下的标准唇形视频,将各语种下的标准唇形视频剪辑为单词模式和句子模式下的标准唇形视频;
所述唇语识别模块,用于从用户通过不同语种下单词模式或句子模式的标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本;
所述反馈模块,用于计算用户唇读的文本和标准唇形视频的文本之间的相似度,通过相似度判断用户的唇读训练效果,反馈至用户个人中心模块。
3.如权利要求2所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述唇读训练模块还包括:唇语识别模型,
所述唇语识别模型包括前端特征提取网络和后端分类网络,通过如下方式训练得到:
获取视频帧中人脸图像及其真实唇部语言,提取人脸图像的唇部区域,组成ROI序列,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入后端分类网络,输出预测字符,以预测字符与真实唇部语言之间的误差最小为目标训练至收敛,得到唇语识别模型;
所述视频帧为不同语种的视频帧,最终得到不同语种的唇语识别模型;
所述唇语识别模块,用于使用某一语种的唇语识别模型从用户通过该语种下单词模式或句子模式的标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本。
4.如权利要求3所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述虚拟人对答沟通模块包括:虚拟人形成模块和对话机器人,
所述虚拟人形成模块,用于调用唇语识别模型从用户在元宇宙社交场景中讲话的视频中识别社交文本,将社交文本输入对话机器人,将对话机器人输出的回答文本转化为音频后与人脸结合形成虚拟人。
5.如权利要求4所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述虚拟人形成模块包括语音合成模块和动画生成模块,
所述语音合成模块,用于将对话机器人输出的文本通过语音合成软件合成音频;
所述动画生成模块,用于使用说话人脸生成模型将音频与人脸结合,形成虚拟人;其中,说话人脸生成模型包括编码器、解码器和口型判别器,说话人脸生成模型通过如下方式训练得到:
将样本语音片段转换为梅尔频谱形式,通过编码器中的残差卷积将梅尔频谱形式的样本语音片段编码为预处理音频,通过编码器中的残差卷积对样本人脸图片下采样,得到预处理人脸图片,通过解码器中的转置卷积将预处理音频和预处理人脸图片解码,形成虚拟人;口型判别器通过两个卷积网络分别对虚拟人的口型和音频编码,以编码后的口型与预处理人脸图片中口型之间误差最小且编码后的音频与预处理音频之间误差最小为目标,训练至收敛,得到训练好的说话人脸生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310371018.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:降低污染的冷染染色装置
- 下一篇:访问验证方法、装置、电子设备和存储介质





