[发明专利]一种基于深度学习的视频物体分割方法及系统在审
申请号: | 202010200661.4 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111462132A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 范建平;牛凯迪 | 申请(专利权)人: | 西北大学 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06N3/04;G06N3/08 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 孙雅静 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 视频 物体 分割 方法 系统 | ||
1.一种基于深度学习的视频物体分割方法,其特征在于,包括:
S1:待处理视频以帧为分析单位,用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域为初始标注信息;
S2:根据初始标注信息,利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割,再利用基于深度学习的半监督视频物体分割算法逐帧传递,得到所有帧图像的目标物体区域为视频物体分割结果。
2.根据权利要求1所述的基于深度学习的视频物体分割方法,其特征在于,用户对视频物体分割结果中的所有帧图像进行检查,当出现帧图像的错误分割结果时,循环运行S1和S2的步骤,直至视频中所有帧图像的分割结果均正确。
3.根据权利要求1或2所述的基于深度学习的视频物体分割方法,其特征在于,基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想,通过传统图割算法得到用户所标注的目标物体区域,然后将目标物体区域与视频序列放入神经网络中训练;
所述的神经网络为全卷机神经网络,全卷机神经网络结构分为编码和解码阶段:编码阶段通过对VGG网络结构进行改进,删除全连接层,改为卷积层保留特征信息,添加新的损失交叉熵函数,采用深度学习结合概率图模型,在后端使用CRFs优化前端输出,得到最终分割结果图。
4.根据权利要求3所述的基于深度学习的视频物体分割方法,其特征在于,全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层,分为5个stage;第一个stage包含两个Conv3-64,第二个stage包含2个Conv3-128,第三个stage包含3个Conv3-256,第四个stage包含3个Conv3-512,第四个stage包含3个Conv3-512;每个stage之间通过池化操作对特征图进行下采样操作;连接池化层前的卷积层来形成跳跃路径;将来自不同跳跃路径的特征图连接起来,形成一个具有不同详细层信息的立方体,将特征图线性融合到一个图像维度大小相同的单个输出上,并为它分配一个新的损失函数L:
其中y为真值,a为神经元实际输出,n为训练集样本容量。
5.一种基于深度学习的视频物体分割系统,其特征在于,该系统写入基于深度学习的视频物体分割算法,包括:
S1:待处理视频以帧为分析单位,用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域为初始标注信息;
S2:根据初始标注信息,利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割,再利用基于深度学习的半监督视频物体分割算法逐帧传递,得到所有帧图像的目标物体区域为视频物体分割结果。
6.根据权利要求5所述的基于深度学习的视频物体分割系统,其特征在于,用户对视频物体分割结果中的所有帧图像进行检查,当出现帧图像的错误分割结果时,循环运行S1和S2的步骤,直至视频中所有帧图像的分割结果均正确。
7.根据权利要求5或6所述的基于深度学习的视频物体分割系统,其特征在于,基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想,通过传统图割算法得到用户所标注的目标物体区域,然后将目标物体区域与视频序列放入神经网络中训练;
所述的神经网络为全卷机神经网络,全卷机神经网络结构分为编码和解码阶段:编码阶段通过对VGG网络结构进行改进,删除全连接层,改为卷积层保留特征信息,添加新的损失交叉熵函数,采用深度学习结合概率图模型,在后端使用CRFs优化前端输出,得到最终分割结果图。
8.根据权利要求7所述的基于深度学习的视频物体分割系统,其特征在于,全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层,分为5个stage;第一个stage包含两个Conv3-64,第二个stage包含2个Conv3-128,第三个stage包含3个Conv3-256,第四个stage包含3个Conv3-512,第四个stage包含3个Conv3-512;每个stage之间通过池化操作对特征图进行下采样操作;连接池化层前的卷积层来形成跳跃路径;将来自不同跳跃路径的特征图连接起来,形成一个具有不同详细层信息的立方体,将特征图线性融合到一个图像维度大小相同的单个输出上,并为它分配一个新的损失函数L:
其中y为真值,a为神经元实际输出,n为训练集样本容量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010200661.4/1.html,转载请声明来源钻瓜专利网。