[发明专利]一种基于语义属性视觉转换重构器的深度神经网络算法在审
申请号: | 202211133367.1 | 申请日: | 2022-09-17 |
公开(公告)号: | CN115482449A | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 周伯俊;顾菊平;杨慧;程天宇;蒋凌;赵佳皓;言淳恺 | 申请(专利权)人: | 南通大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/77;G06V10/764;G06N3/08;G06N3/04 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 王毅 |
地址: | 226019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 属性 视觉 转换 重构器 深度 神经网络 算法 | ||
本发明属于人工智能算法技术领域,具体涉及一种基于语义属性视觉转换重构器的深度神经网络算法。首先利用语义属性模块B1获取图像关键部件位置坐标,并将关键部件位置所在区域内的像素值转换为语义属性特征矢量,同时利用位置矢量模块B2将位置坐标通过线性全连接层转换为位置特征矢量,然后利用多层语义属性转换器B3对语义属性特征矢量和位置特征矢量相加后的特征进行转换得到离散语义属性特征,最后利用语义目标重构器B4对离散语义属性特征建立图模型从而得到图像的最终特征表示。通过模块B1、B2、B3、B4组成的基于语义属性视觉转换重构器的深度神经网络算法对数字图像进行处理,能够提高计算机对图像中语义物体的建模能力和空间表示能力。
技术领域
本发明属于人工智能算法技术领域,具体涉及一种基于语义属性视觉转换重构器的深度神经网络算法。
背景技术
近年来,与传统的浅层神经网络相比,深度神经网络利用若干神经元层连接的网络结构来充分挖掘数据中的信息,在人工智能的各个领域中都获得了重大成功。卷积神经网络是深度神经网络中经典的模型之一,该模型通过引入卷积层和池化层能够有效地处理图像这种具有平移不变性的数据。自AlexNet(Alex Krizhevsky,Ilya Sutskever,andGeoffrey E Hinton.Imagenet classification with deep convolutional neuralnetworks.NIP,2012:1097–1105.)在图像分类挑战赛中所展现出来的卓越性能,越来越多复杂有效的神经网络逐渐被提出,进一步推动了深度学习技术在计算机视觉领域中的研究热潮。这些被广泛使用的通用网络模型包括VGG(K.Simonyan and A.Zisserman.Very deepconvolutional networks for large-scale image recognition.ICLR,2015.),GoogleNet(Christian Szegedy,Wei Liu,Yangqing Jia,et al.Going deeper withconvolutions.CVPR,2015),ResNet(Kaiming He,Xiangyu Zhang,Shaoqing Ren,JianSun.Deep residual learning for image recognition.CVPR,2016:770–778),DenseNet(Gao Huang,Zhuang Liu,Laurens Van Der Maaten,and Kilian Q Weinberger.Denselyconnected convolutional networks.CVPR,2017:4700–4708)等。
然而,卷积神经网络是对图像内的局部特征建立模型,所使用的卷积滤波器只能感知输入图像的局部区域,即卷积神经网络的感受野有限。对此缺点进行改进的重要措施是使用自注意力机制来增加网络的全局连接性。这一系列的网络模型为起源于机器翻译领域的transformer网络模型。该类模型非常擅长对长距离依赖性进行建模。最近出现了将transformer网络模型引入到计算机视觉领域的研究热潮。视觉transformer网络已经取得了与卷积神经网络有竞争力的性能。例如,Dosovitskiy等(Dosovitskiy et al.An imageis worth 16x16 words:Transformers for image recognition at scale.In ICLR,2021.)提出将图像划分为一系列16×16的图像小块,然后使用若干transformer层对这些小块进行处理然后最终建立图像的全局特征。然而,目前的视觉transformer网络只是对图像进行简单的划分,这种方式所产生的图像小块不具有语义含义,并且基于图像小块所建立的全局特征表示并没有考虑图像小块的空间特性。
发明内容
为了解决上述问题,本发明公开了一种基于语义属性视觉转换重构器的深度神经网络算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211133367.1/2.html,转载请声明来源钻瓜专利网。