[发明专利]一种基于卷积神经网络的道路场景语义分割方法有效
申请号: | 201811186863.7 | 申请日: | 2018-10-12 |
公开(公告)号: | CN109446933B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 周武杰;顾鹏笠;潘婷;吕思嘉;钱亚冠;向坚 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于卷积神经网络的道路场景语义分割方法,其在训练阶段,构建卷积神经网络,其隐层包括5个神经网络块、5个过渡用卷积层、5个跳跃反卷积块、4个级联层;使用原始的道路场景图像输入到卷积神经网络中进行训练,得到对应的12幅语义分割预测图;再通过计算原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中,得到预测语义分割图像;优点是提高了道路场景图像的语义分割效率和准确度。 | ||
搜索关键词: | 一种 基于 卷积 神经网络 道路 场景 语义 分割 方法 | ||
【主权项】:
1.一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
处理成的12幅独热编码图像构成的集合记为
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
表示
中坐标位置为(i,j)的像素点的像素值;步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块;对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;对于第1个神经网络块,其由依次设置的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”,第一激活层和第二激活层的激活方式均为“Relu”,第一最大池化层的池化尺寸为2,P1中的每幅特征图的宽度为
高度为
对于第2个神经网络块,其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”,第三激活层和第四激活层的激活方式均为“Relu”,第二最大池化层的池化尺寸为2,P2中的每幅特征图的宽度为
高度为
对于第3个神经网络块,其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”,第五激活层、第六激活层和第七激活层的激活方式均为“Relu”,第三最大池化层的池化尺寸为2,P3中的每幅特征图的宽度为
高度为
对于第4个神经网络块,其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”,第四最大池化层的池化尺寸为2,P4中的每幅特征图的宽度为
高度为
对于第5个神经网络块,其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”,第五最大池化层的池化尺寸为2,P5中的每幅特征图的宽度为
高度为
对于第1个过渡用卷积层,其由依次设置的第十四卷积层、第十四激活层组成;第1个过渡用卷积层的输入端接收P5中的所有特征图,第1个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q1;其中,第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十四激活层的激活方式均为“Relu”,Q1中的每幅特征图的宽度为
高度为
对于第2个过渡用卷积层,其由依次设置的第十五卷积层、第十五激活层组成;第2个过渡用卷积层的输入端接收P4中的所有特征图,第2个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q2;其中,第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十五激活层的激活方式均为“Relu”,Q2中的每幅特征图的宽度为
高度为
对于第3个过渡用卷积层,其由依次设置的第十六卷积层、第十六激活层组成;第3个过渡用卷积层的输入端接收P3中的所有特征图,第3个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q3;其中,第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十六激活层的激活方式均为“Relu”,Q3中的每幅特征图的宽度为
高度为
对于第4个过渡用卷积层,其由依次设置的第十七卷积层、第十七激活层组成;第4个过渡用卷积层的输入端接收P2中的所有特征图,第4个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q4;其中,第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十七激活层的激活方式均为“Relu”,Q4中的每幅特征图的宽度为
高度为
对于第5个过渡用卷积层,其由依次设置的第十八卷积层、第十八激活层组成;第5个过渡用卷积层的输入端接收P1中的所有特征图,第5个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q5;其中,第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十八激活层的激活方式均为“Relu”,Q5中的每幅特征图的宽度为
高度为
对于第1个跳跃反卷积块,其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成;第1个跳跃反卷积块的输入端接收Q1中的所有特征图,Q1中的所有特征图输入第一反卷积层,第一反卷积层的输出连接第十九激活层的输入,第十九激活层的输出连接第十九卷积层的输入,第十九卷积层的输出连接第二十激活层的输入,第二十激活层的输出连接第二十卷积层的输入,第二十卷积层的输出与第一反卷积层的输出作相加操作后的输出连接第二十一激活层的输入,第二十一激活层的输出作为最终输出结果,第1个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T1;其中,第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”,第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T1中的每幅特征图的宽度为
高度为
对于第1个级联层,第1个级联层的输入端接收Q2中的所有特征图和T1中的所有特征图,第1个级联层通过Concatence方式连接Q2和T1得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为256,U1中的每幅特征图的宽度为
高度为
对于第2个跳跃反卷积块,其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成;第2个跳跃反卷积块的输入端接收U1中的所有特征图,U1中的所有特征图输入第二反卷积层,第二反卷积层的输出连接第二十二激活层的输入,第二十二激活层的输出连接第二十一卷积层的输入,第二十一卷积层的输出连接第二十三激活层的输入,第二十三激活层的输出连接第二十二卷积层的输入,第二十二卷积层的输出与第二反卷积层的输出作相加操作后的输出连接第二十四激活层的输入,第二十四激活层的输出作为最终输出结果,第2个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T2;其中,第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”,第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T2中的每幅特征图的宽度为
高度为
对于第2个级联层,第2个级联层的输入端接收Q3中的所有特征图和T2中的所有特征图,第2个级联层通过Concatence方式连接Q3和T2得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为256,U2中的每幅特征图的宽度为
高度为
对于第3个跳跃反卷积块,其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成;第3个跳跃反卷积块的输入端接收U2中的所有特征图,U2中的所有特征图输入第三反卷积层,第三反卷积层的输出连接第二十五激活层的输入,第二十五激活层的输出连接第二十三卷积层的输入,第二十三卷积层的输出连接第二十六激活层的输入,第二十六激活层的输出连接第二十四卷积层的输入,第二十四卷积层的输出与第三反卷积层的输出作相加操作的输出连接第二十七激活层的输入,第二十七激活层的输出作为最终输出结果,第3个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T3;其中,第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”,第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T3中的每幅特征图的宽度为
高度为
对于第3个级联层,第3个级联层的输入端接收Q4中的所有特征图和T3中的所有特征图,第3个级联层通过Concatence方式连接Q4和T3得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为256,U3中的每幅特征图的宽度为
高度为
对于第4个跳跃反卷积块,其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成;第4个跳跃反卷积块的输入端接收U3中的所有特征图,U3中的所有特征图输入第四反卷积层,第四反卷积层的输出连接第二十八激活层的输入,第二十八激活层的输出连接第二十五卷积层的输入,第二十五卷积层的输出连接第二十九激活层的输入,第二十九激活层的输出连接第二十六卷积层的输入,第二十六卷积层的输出与第四反卷积层的输出作相加操作后的输出连接第三十激活层的输入,第三十激活层的输出作为最终输出结果,第4个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T4;其中,第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”,第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T4中的每幅特征图的宽度为
高度为
对于第4个级联层,第4个级联层的输入端接收Q5中的所有特征图和T4中的所有特征图,第4个级联层通过Concatence方式连接Q5和T4得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为256,U4中的每幅特征图的宽度为
高度为
对于第5个跳跃反卷积块,其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成;第5个跳跃反卷积块的输入端接收U4中的所有特征图,U4中的所有特征图输入第五反卷积层,第五反卷积层的输出连接第三十一激活层的输入,第三十一激活层的输出连接第二十七卷积层的输入,第二十七卷积层的输出连接第三十二激活层的输入,第三十二激活层的输出连接第二十八卷积层的输入,第二十八卷积层的输出与第五反卷积层的输出作相加操作后输出连接第三十三激活层的输入,第三十三激活层的输出作为最终输出结果,第5个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T5;其中,第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”,第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T5中的每幅特征图的宽度为W、高度为H;对于输出层,其由第二十九卷积层组成,其中,第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式为“softmax”;输出层的输入端接收T5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图;步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
与
之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;所述的测试阶段过程的具体步骤为:步骤2_1:令
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
的宽度,H'表示
的高度,
表示
中坐标位置为(i,j)的像素点的像素值;步骤2_2:将
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
对应的预测语义分割图像,记为
其中,
表示
中坐标位置为(i',j')的像素点的像素值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811186863.7/,转载请声明来源钻瓜专利网。