[发明专利]一种将音频片段映射为人脸嘴型关键点的方法有效
| 申请号: | 202010134872.2 | 申请日: | 2020-03-02 |
| 公开(公告)号: | CN111429885B | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 金福生;秦勇 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/25;G10L25/30 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 音频 片段 映射 为人 脸嘴型 关键 方法 | ||
1.一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:包括如下步骤:
步骤一、收集大量带有音频的高分辨率交谈视频数据,在各类视频网站进行下载并收集这些带音频的视频;
步骤二、从步骤一下载并收集的带音频的视频中分别提取音频和视频,分别得到音频数据和视频数据;
步骤三、提取步骤二得到的视频数据中每帧人脸图像的嘴型关键点信息,并记录关键点的坐标;
其中,提取步骤二得到的视频数据采用开源工具库DLIB;每帧人脸图像的嘴型关键点有K个,每个关键点由一对(x,y)坐标表示,即每帧人脸图像的嘴型关键信息由一个2*K维向量进行表示;
步骤四、提取步骤二得到的音频数据中的fbank特征;
步骤五、使用主成分分析的方法对步骤三提取的嘴型关键点信息进行降维,得到降维度后的嘴型关键点信息;
步骤六、使用步骤四得到的fbank特征和步骤五得到的降维度后的嘴型关键点信息组成训练数据集;
步骤六具体为:步骤四得到每个音频片段的fbank特征序列,步骤五得到每个视频片段中每帧图像的由1个X维向量表示的嘴型关键点信息,一个音频片段与一个视频片段是一一对应的,因此将所有的音频片段的fbank特征序列依次连接起来,将每个视频片段中所有图像的嘴型关键点信息按时间顺序依次连接起来,然后将所有的连接起来的嘴型关键点信息按照其对应视频与音频片段的对应关系,再将其依次连接起来,此处,音频的fbank特征序列的长度大约是嘴型关键点特征序列长度的M倍,即M个音频fbank特征信息对应一个嘴型关键点特征信息,因此在每相邻的两个嘴型关键点特征信息中间,以这两个嘴型关键点特征信息作为基础,内容上稍作浮动修改,形成新的嘴型关键点特征信息,并将其插入这两者之间,至此,所有音频片段的fbank特征信息与所有视频片段的嘴型关键点特征信息一一对应,形成训练数据集;
其中,M小于K;
步骤七、使用一层简单循环神经网络模型作为将音频信息映射为嘴型关键点的映射模型,并使用步骤六得到的训练数据集对模型进行训练;
步骤八、使用步骤七训练好的模型进行前向推断。
2.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤一中,交谈视频数据中包含音频和视频,且为单一人物的演讲视频。
3.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤一具体为:从公开的视频网站中寻找单一人物的演讲视频,并对寻找到的这个人的所有演讲视频进行挑选,选择演讲内容比较连贯,停顿较少且整个视频中面部前后左右晃动较少的视频作为收集到的数据。
4.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤二中,提取音频和视频使用开源工具FFMPEG;
步骤二具体为:首先下载FFMPEG工具,根据安装说明,将其安装在windows10操作系统上,然后依次点击导入、提取视频、提取音频,将每个视频的音频和视频分离开,即实现了音频和视频的提取。
5.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤四中,提取步骤二得到的音频数据中的fbank特征使用python的第三方库python_speech_features。
6.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法,其特征在于:步骤五具体操作为:下载机器学习库sklearn,根据官方安装说明进行安装,然后对其公布的示例程序稍作修改,调用sklearn库中的PCA函数,以步骤三得到的每帧图像的2K维向量表示的嘴型关键点信息作为输入,得到一个X维向量表示的嘴型关键点信息;其中,X小于K。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010134872.2/1.html,转载请声明来源钻瓜专利网。





