[发明专利]一种基于对抗生成网络的唇形转正方法在审
申请号: | 202110302713.3 | 申请日: | 2021-03-22 |
公开(公告)号: | CN113011564A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 毛志炜;朱铮宇;王泳 | 申请(专利权)人: | 广东技术师范大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/00 |
代理公司: | 广东有知猫知识产权代理有限公司 44681 | 代理人: | 胡强 |
地址: | 510665 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 生成 网络 转正 方法 | ||
本发明涉及一种基于对抗生成网络的唇形转正方法,其特征在于先构建基于生成对抗网络的生成器网络模型,所述生成器网络模型包括生成器和判别器;然后进行数据预处理,在数据处理时在对数据进行灰度化处理的同时按视频的帧率进行剪裁,最后都归一化,统一数据类型和数据形状大小;第三使用随机梯度下降对交叉熵误差进行训练,以优化生成器和判别器的ADAM参数;最后,将待测数据输入到训练好的生成器网络模型中,从而输出唇形转正后的结果。该方法从已有的少量特征,经过深度卷积对抗生成网络生成目标图像,从而有效获取正面视图作为视觉语音研究和应用。
技术领域
本发明属于图像处理中的图像数据生成领域,具体是涉及一种基于对抗生成网络的唇形转正方法。
背景技术
随着第三次科技革命的到来,人工智能技术飞速发展。语音作为其中重要的一大类,在日常生活中随处可见,于此同时语音安全的问题不容忽视。在我国语音技术发展相对与发达国家还不够完善,尤其是视觉语音识别方便的研究相对甚少。唇读语音识别是近些年视觉语音研究又一热门话题,通过判断说话人发音过程中唇部的运动与音频之间的联系可以有效检查出,音视频是否同时录制、出自同一人、同一句话。而适合唇读语音识别的语料库相对较少,无法满足日益增长的唇读语音识别方面的研究。
在已有的视觉语音研究当中,大多都是基于正面视图的研究,取得了不错成果,当视图角度增大以后丢失的特征越来越多,视觉语音测试的准确率也随之下降,也有研究者试图从少量特征视图中来提高视觉语音测试准确率,但效果不是明显,本发明从数据出发,从源头解决视角增大特征丢失问题。
近些年,随着硬件水平的提高,也带动了深度学习领域飞速发展。深度学习成为了继人工智能、大数据又一热门的词汇。在深度学习领域,2014年基于自编码器改进的对抗生成网络的诞生,改变了传统的机器学习方式,尤其在和卷积神经网络融合之后。现如今,对抗生成网络成为图像处理领域绕不开的一个模型。本发明就是基于对抗生成网络强大的生成能力与对抗思想,以复杂情况下多角度数据集重建正面唇性。
发明内容
本发明针对现有技术的不足,提供一种基于对抗生成网络的唇形转正方法;该方法从已有的少量特征,经过深度卷积对抗生成网络生成目标图像,从而有效获取正面视图作为视觉语音研究和应用。
为了达到上述目的,本发明一种基于对抗生成网络的唇形转正方法,主要包括以下步骤:
首先,构建基于生成对抗网络的生成器网络模型,所述生成器网络模型包括生成器和判别器。
所述生成器左半部分为编码结构,使用下采样的方法提取图像特征;生成器右半部分为解码结构,使用上采用的方法把特征映射为图像。
所述判别器为马尔科夫判别器,由全卷积组成,最后以矩阵均值作为真假判断输出,从而输出唇形转正后的特征值。
其次,数据预处理,在数据处理时在对数据进行灰度化处理的同时按视频的帧率进行剪裁,最后都归一化,统一数据类型和数据形状大小。
第三,使用随机梯度下降对交叉熵误差进行训练,以优化生成器和判别器的ADAM参数。
最后,将待测数据输入到训练好的生成器网络模型中,从而输出唇形转正后的结果。
作为上述方案的进一步改进,所述数据灰度化处理采用tensorflow工具里的平均值法,假设各通道读取像素点的像素值为r,g,b,那么灰度值
假设样本X(x1,x2,x3,…xi)xi为样本X中像素点的值,xmin表示X中最小像素点值,xmax表示X中最大像素点值,归一化[-1,1]之间的值
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110302713.3/2.html,转载请声明来源钻瓜专利网。