[发明专利]一种将音频片段映射为人脸嘴型关键点的方法有效
| 申请号: | 202010134872.2 | 申请日: | 2020-03-02 |
| 公开(公告)号: | CN111429885B | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 金福生;秦勇 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/25;G10L25/30 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 音频 片段 映射 为人 脸嘴型 关键 方法 | ||
本发明涉及一种将音频片段映射为人脸嘴型关键点的方法,属于人工智能中的多模态交互及音频信息转化技术领域。所述方法从带音频的视频中分别提取音频和视频;提取得到的视频数据中每帧人脸图像中嘴型关键点信息,并记录关键点的坐标;对音频数据提取Fbank特征,使用主成分分析对提取的嘴型关键点信息进行降维,去除冗余信息,使用1层简单循环神经网络,不进行时延处理,直接进行从音频信息到嘴型关键点之间的映射关键关系建模。所述方法使用的神经网络模型的复杂度更低,从而降低了模型训练难度,减少了模型的训练时间,使得前向推断速度更快,比现有方法具有更广阔的应用场景。
技术领域
本发明涉及一种将音频片段映射为人脸嘴型关键点的方法,属于人工智能中的多模态交互及音频信息转化技术领域。
背景技术
随着人工智能技术的快速发展,多模态交互成为研究热点,多模态交互是指综合利用多种不同模态的信息实现人机交互,从而比只利用单一模态的信息进行人机交互取得更好的效果,语音片段属于音频信息,是一种模态,人脸嘴型标记点属于图像(或者说视觉)信息,将音频信息转化为嘴型标记点,其主要目的是将音频信息与图像信息关联起来,即建立音频到图像之间的映射关系,这样就可以实现内容相同的信息从一种模态转化为另一种模态,那么在实际多模态交互应用中,可以根据两种模态的信息判断具体信息内容,从而实现更好的效果。嘴型关键点是人脸关键点的子集,一般来说,常用的定义中,人脸关键点有68个,而嘴型关键只是人脸关键点里嘴型位置的点,仅有20个,将音频数据转化为关键点信息从本质上来讲都是在维度接近的两个特征空间之间进行,方法上没有差异,但是在神经网络模型训练过程中,训练数据是20个点显然要比68个点更加节省内存空间,同时目前主流的方法都是提取嘴型关键点。目前主要有两种方法用于实现将音频信息转化为嘴唇(或人脸)关键点信息,一种是使用序列网络,将音频信息直接映射到嘴型标记点,另一种是先对音频信息进行特征提取,然后使用序列网络将提取的声学特征映射到嘴型标记点,BoFan等人提出了一种使用深度双向长短期记忆神经网络模型(BLSTM)进行音视频建模的方法,用于构建以音频为输入,视频为输出的交谈脸生成系统。该方法的主要步骤是,首先构建一个目标人物交谈的音视频数据集,然后使用两个平行的特征提取器,一个是标签提取器,用于提取文本或其对应的音频片段的特征,另一个是视觉特征提取器,用于提取视频序列中的所有面部图像的特征,在训练阶段,以标签提取器的输出作为BLSTM模型的输入,以视觉特征提取器的输出作为真实标签,训练得到BLSTM模型,在交谈脸生成阶段,输入一段音频或文本,将经过标签提取器之后得到的特征向量作为BLSTM的输入,BLSTM的输出结果为视觉特征向量,然后利用此视觉特征向量进行交谈脸图像重建,继而得到整个的交谈脸视频序列,总的来讲,是直接通过LSTM实现音频到关键点的映射建模;本文尝试了多种BLSTM模型的变体,最终得出结论,在一层前向层上加两层双向LSTM将取得最好的结果。Sefik Emre Eskimez等人在提出一种从音频生成标记点(也称关键点)交谈脸视频的方法,其主要操作是首先收集大量的交谈脸视频,提取音频和视频,并建立两者这件的对应关系,然后使用Dlib库提供的人脸标记点检测方法,提取视频中人脸图像的68个关键点,同时建立音频片段和每帧68个人脸关键点之间的对应关系,组成本文提出的LSTM模型的训练数据集,接着训练模型,等到模型损失函数收敛之后,便可以进行推断,输入音频,输出关键点交谈脸视频。本文说明LSTM对于建模具有时序关系的数据时更有优势,作者使用的是4层双向长短期记忆网络(BLSTM)。SUPASORN SUWAJANAKORN等人提出一种根据音频进行嘴型合成,在经过渲染得到交谈脸视频的方法,即由音频驱动,作为输入,用于生成交谈脸视频,其主要步骤是根据输入音频,经过一个原生LSTM(长短期记忆网络)网络,得到13个稀疏嘴型标记点,根据标记点,还原嘴型的20个标记点,之后勾勒唇线,得到稀疏嘴型表示,然后进行纹理合成,得到高度细节化的面部纹理,之后利用嘴型标记点在已经建立的嘴型点数据库中进行搜索,找到最匹配的嘴型及其对应的图像,然后以此为原型,辅助使用光流、人脸3维建模和牙齿代理等方法进行优化,得到新的人脸图像,接着根据时序关系,对得到的每一帧新图像,根据前一帧图像的头部姿态、表情等进行调整优化,在产生大量的图像之后,合成视频。文章中提到使用LSTM(长短期记忆网络模型)网络模型进行音频到18个嘴型关键点之间的映射关系建模能够达到更好的准确性和效果。Yoshua Bengio等人提出了一种利用文本信息生成交谈脸视频的方法,其主要思路是将文本信息利用char2wav模型(语音合成Text-to-Audio的知名模型)转成语音片段,然后将语音片段输入时延LSTM(时延长短期记忆网络模型)网络模型得出20个嘴型关键点信息,之后利用关键点信息在已经建立好的目标人脸数据库中搜索最相似的嘴型及其对应的图像,然后实现交谈脸生成过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010134872.2/2.html,转载请声明来源钻瓜专利网。





