[发明专利]一种基于卷积神经网络的道路场景语义分割方法有效

申请号：	201811186863.7	申请日：	2018-10-12
公开（公告）号：	CN109446933B	公开（公告）日：	2021-10-12
发明（设计）人：	周武杰;顾鹏笠;潘婷;吕思嘉;钱亚冠;向坚	申请（专利权）人：	浙江科技学院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06N3/04;G06N3/08
代理公司：	宁波奥圣专利代理有限公司 33226	代理人：	周珏
地址：	310023 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于卷积神经网络的道路场景语义分割方法，其在训练阶段，构建卷积神经网络，其隐层包括5个神经网络块、5个过渡用卷积层、5个跳跃反卷积块、4个级联层；使用原始的道路场景图像输入到卷积神经网络中进行训练，得到对应的12幅语义分割预测图；再通过计算原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，获得卷积神经网络分类训练模型的最优权值矢量和偏置项；在测试阶段，将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中，得到预测语义分割图像；优点是提高了道路场景图像的语义分割效率和准确度。
搜索关键词：	一种基于卷积神经网络道路场景语义分割方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于卷积神经网络的道路场景语义分割方法，其特征在于包括训练阶段和测试阶段两个过程；所述的训练阶段过程的具体步骤为：步骤1_1：选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，并构成训练集，将训练集中的第q幅原始的道路场景图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像，将处理成的12幅独热编码图像构成的集合记为其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥200，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值；步骤1_2：构建卷积神经网络：卷积神经网络包括输入层、隐层和输出层；隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块；对于输入层，输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H；对于第1个神经网络块，其由依次设置的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成；第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为P₁；其中，第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”，第一激活层和第二激活层的激活方式均为“Relu”，第一最大池化层的池化尺寸为2，P₁中的每幅特征图的宽度为高度为对于第2个神经网络块，其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成；第2个神经网络块的输入端接收P₁中的所有特征图，第2个神经网络块的输出端输出128幅特征图，将128幅特征图构成的集合记为P₂；其中，第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”，第三激活层和第四激活层的激活方式均为“Relu”，第二最大池化层的池化尺寸为2，P₂中的每幅特征图的宽度为高度为对于第3个神经网络块，其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成；第3个神经网络块的输入端接收P₂中的所有特征图，第3个神经网络块的输出端输出256幅特征图，将256幅特征图构成的集合记为P₃；其中，第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”，第五激活层、第六激活层和第七激活层的激活方式均为“Relu”，第三最大池化层的池化尺寸为2，P₃中的每幅特征图的宽度为高度为对于第4个神经网络块，其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成；第4个神经网络块的输入端接收P₃中的所有特征图，第4个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₄；其中，第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”，第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”，第四最大池化层的池化尺寸为2，P₄中的每幅特征图的宽度为高度为对于第5个神经网络块，其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成；第5个神经网络块的输入端接收P₄中的所有特征图，第5个神经网络块的输出端输出512幅特征图，将512幅特征图构成的集合记为P₅；其中，第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”，第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”，第五最大池化层的池化尺寸为2，P₅中的每幅特征图的宽度为高度为对于第1个过渡用卷积层，其由依次设置的第十四卷积层、第十四激活层组成；第1个过渡用卷积层的输入端接收P₅中的所有特征图，第1个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₁；其中，第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十四激活层的激活方式均为“Relu”，Q₁中的每幅特征图的宽度为高度为对于第2个过渡用卷积层，其由依次设置的第十五卷积层、第十五激活层组成；第2个过渡用卷积层的输入端接收P₄中的所有特征图，第2个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₂；其中，第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十五激活层的激活方式均为“Relu”，Q₂中的每幅特征图的宽度为高度为对于第3个过渡用卷积层，其由依次设置的第十六卷积层、第十六激活层组成；第3个过渡用卷积层的输入端接收P₃中的所有特征图，第3个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₃；其中，第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十六激活层的激活方式均为“Relu”，Q₃中的每幅特征图的宽度为高度为对于第4个过渡用卷积层，其由依次设置的第十七卷积层、第十七激活层组成；第4个过渡用卷积层的输入端接收P₂中的所有特征图，第4个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₄；其中，第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十七激活层的激活方式均为“Relu”，Q₄中的每幅特征图的宽度为高度为对于第5个过渡用卷积层，其由依次设置的第十八卷积层、第十八激活层组成；第5个过渡用卷积层的输入端接收P₁中的所有特征图，第5个过渡用卷积层的输出端输出128幅特征图，将128幅特征图构成的集合记为Q₅；其中，第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第十八激活层的激活方式均为“Relu”，Q₅中的每幅特征图的宽度为高度为对于第1个跳跃反卷积块，其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成；第1个跳跃反卷积块的输入端接收Q₁中的所有特征图，Q₁中的所有特征图输入第一反卷积层，第一反卷积层的输出连接第十九激活层的输入，第十九激活层的输出连接第十九卷积层的输入，第十九卷积层的输出连接第二十激活层的输入，第二十激活层的输出连接第二十卷积层的输入，第二十卷积层的输出与第一反卷积层的输出作相加操作后的输出连接第二十一激活层的输入，第二十一激活层的输出作为最终输出结果，第1个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₁；其中，第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”，第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₁中的每幅特征图的宽度为高度为对于第1个级联层，第1个级联层的输入端接收Q₂中的所有特征图和T₁中的所有特征图，第1个级联层通过Concatence方式连接Q₂和T₁得到集合U₁，第1个级联层的输出端输出U₁；其中，U₁中包含的特征图的总幅数为256，U₁中的每幅特征图的宽度为高度为对于第2个跳跃反卷积块，其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成；第2个跳跃反卷积块的输入端接收U₁中的所有特征图，U₁中的所有特征图输入第二反卷积层，第二反卷积层的输出连接第二十二激活层的输入，第二十二激活层的输出连接第二十一卷积层的输入，第二十一卷积层的输出连接第二十三激活层的输入，第二十三激活层的输出连接第二十二卷积层的输入，第二十二卷积层的输出与第二反卷积层的输出作相加操作后的输出连接第二十四激活层的输入，第二十四激活层的输出作为最终输出结果，第2个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₂；其中，第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”，第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₂中的每幅特征图的宽度为高度为对于第2个级联层，第2个级联层的输入端接收Q₃中的所有特征图和T₂中的所有特征图，第2个级联层通过Concatence方式连接Q₃和T₂得到集合U₂，第2个级联层的输出端输出U₂；其中，U₂中包含的特征图的总幅数为256，U₂中的每幅特征图的宽度为高度为对于第3个跳跃反卷积块，其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成；第3个跳跃反卷积块的输入端接收U₂中的所有特征图，U₂中的所有特征图输入第三反卷积层，第三反卷积层的输出连接第二十五激活层的输入，第二十五激活层的输出连接第二十三卷积层的输入，第二十三卷积层的输出连接第二十六激活层的输入，第二十六激活层的输出连接第二十四卷积层的输入，第二十四卷积层的输出与第三反卷积层的输出作相加操作的输出连接第二十七激活层的输入，第二十七激活层的输出作为最终输出结果，第3个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₃；其中，第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”，第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₃中的每幅特征图的宽度为高度为对于第3个级联层，第3个级联层的输入端接收Q₄中的所有特征图和T₃中的所有特征图，第3个级联层通过Concatence方式连接Q₄和T₃得到集合U₃，第3个级联层的输出端输出U₃；其中，U₃中包含的特征图的总幅数为256，U₃中的每幅特征图的宽度为高度为对于第4个跳跃反卷积块，其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成；第4个跳跃反卷积块的输入端接收U₃中的所有特征图，U₃中的所有特征图输入第四反卷积层，第四反卷积层的输出连接第二十八激活层的输入，第二十八激活层的输出连接第二十五卷积层的输入，第二十五卷积层的输出连接第二十九激活层的输入，第二十九激活层的输出连接第二十六卷积层的输入，第二十六卷积层的输出与第四反卷积层的输出作相加操作后的输出连接第三十激活层的输入，第三十激活层的输出作为最终输出结果，第4个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T₄；其中，第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”，第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T₄中的每幅特征图的宽度为高度为对于第4个级联层，第4个级联层的输入端接收Q₅中的所有特征图和T₄中的所有特征图，第4个级联层通过Concatence方式连接Q₅和T₄得到集合U₄，第4个级联层的输出端输出U₄；其中，U₄中包含的特征图的总幅数为256，U₄中的每幅特征图的宽度为高度为对于第5个跳跃反卷积块，其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成；第5个跳跃反卷积块的输入端接收U4中的所有特征图，U4中的所有特征图输入第五反卷积层，第五反卷积层的输出连接第三十一激活层的输入，第三十一激活层的输出连接第二十七卷积层的输入，第二十七卷积层的输出连接第三十二激活层的输入，第三十二激活层的输出连接第二十八卷积层的输入，第二十八卷积层的输出与第五反卷积层的输出作相加操作后输出连接第三十三激活层的输入，第三十三激活层的输出作为最终输出结果，第5个跳跃反卷积块的输出端输出128幅特征图，将128幅特征图构成的集合记为T5；其中，第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2，第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”，第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”，第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”，T5中的每幅特征图的宽度为W、高度为H；对于输出层，其由第二十九卷积层组成，其中，第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式为“softmax”；输出层的输入端接收T5中的所有特征图，输出层的输出端输出12幅与原始输入图像对应的语义分割预测图；步骤1_3：将训练集中的每幅原始的道路场景图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图，将{I^q(i,j)}对应的12幅语义分割预测图构成的集合记为步骤1_4：计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值，将与之间的损失函数值记为步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为Wbest和bbest；其中，V＞1；所述的测试阶段过程的具体步骤为：步骤2_1：令表示待语义分割的道路场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示的宽度，H'表示的高度，表示中坐标位置为(i,j)的像素点的像素值；步骤2_2：将的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中，并利用W^best和b^best进行预测，得到对应的预测语义分割图像，记为其中，表示中坐标位置为(i',j')的像素点的像素值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江科技学院，未经浙江科技学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811186863.7/，转载请声明来源钻瓜专利网。

上一篇：一种着装检查方法、装置、终端设备及计算机存储介质
下一篇：水环境监管方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于卷积神经网络的道路场景语义分割方法有效

专利文献下载