[发明专利]一种基于改进端到端神经网络的室内物体目标检测方法在审

专利信息
申请号: 202010039334.5 申请日: 2020-01-14
公开(公告)号: CN111275082A 公开(公告)日: 2020-06-12
发明(设计)人: 陈略峰;吴敏;曹卫华;张平平 申请(专利权)人: 中国地质大学(武汉)
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 武汉知产时代知识产权代理有限公司 42238 代理人: 易滨
地址: 430000 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 端到端 神经网络 室内 物体 目标 检测 方法
【权利要求书】:

1.一种基于改进端到端神经网络的室内物体目标检测方法,其特征在于,包括以下步骤:

S1、构建端到端卷积神经网络,所述端到端卷积神经网络包括若干个用于减少图像像素的池化层,若干个用于提取图像特征的卷积层,1个全连接层和1个分类输出层;

S2、获取目标图像数据集,基于所述目标图像数据集构建训练集,对训练集中的每张图像进行标注框的标注,确定训练集图像中每一个预定义目标的类别和位置信息;

S3、将已利用标注框标注的训练集输入到步骤S1构建的卷积神经网络中,进行网络初始化;其中,输入数据先经过1个池化层进行图像像素调整后,再输入到与池化层连接的卷积层,进行图像特征提取,最后经过全连接层做加权和处理,以及分类输出层进行结果输出,实现对训练集图像的预处理;

S4、将预处理后的训练集中的每张图像分割成M×N的网络单元格;利用分割得到的M×N个网络单元格,针对每张图像进行初始候选框的选取;其中,每个网络单元格随机生成B个初始候选框,一共生成M×N×B个初始候选框;参数M、N、B均为正整数且大于等于1;

S5、针对分割得到的每个网络单元格,进行预定义目标的检测,得到目标类别为M×N×B的类别置信度;其中,根据得到的目标类别类别置信度设置卷积神经网络的输出,确定最终的目标预测框;

S6、将已利用标注框标注的训练集作为卷积神经网络的输入,将步骤S5得到的目标预测框作为卷积神经网络的输出,训练卷积神经网络,得到最终的用于室内物体目标检测的卷积神经网络;

S7、将待进行室内物体目标检测的图像输入到基于步骤S6训练得到的卷积神经网络中,得到目标检测结果。

2.根据权利要求1所述的室内物体目标检测方法,其特征在于,步骤S2中,所述目标图像数据集包括情感机器人室内交互环境的图像数据集和VOC2007数据集,在图像标注软件对训练集中的每张图像进行标注框的标注,获取到训练集图像中每一个目标的类别和位置信息。

3.根据权利要求2所述的室内物体目标检测方法,其特征在于,根据情感机器人交互场景和对象,将预定义目标设置为图像中包括的行人、有人坐的椅子、桌子、电脑显示器。

4.根据权利要求1所述的室内物体目标检测方法,其特征在于,步骤S4中,将预处理后的训练集图像分割成14×14的网络单元格;利用网络单元格进行初始候选框的选取,其中,在每个网络单元格中随机生成2个初始候选框,一共生成14×14×2个初始候选框。

5.根据权利要求1所述的室内物体目标检测方法,其特征在于,步骤S5中,针对目标预测框进行目标检测,根据置信度Conf(Object)确定预测每个目标预测框中是否存在待判别目标,将不存在目标物的目标预测框置信度设置为0;其中,置信度的数学公式定义为:

Pr(Object)用于判断是否有目标物落入目标预测框对应的网络单元格中;若网络单元格中存在目标物,则将目标置信度设置为否则,认定目标预测框中没有目标物,将置信度设置为Conf(Object)=0;表示预测框与实际框的交集面积与并集面积之比。

6.根据权利要求1所述的室内物体目标检测方法,其特征在于,步骤S6中,训练卷积神经网络分为以下几项步骤:

S51、接收待检测图像,根据预设的要求调整所述待检测图像的尺寸大小,生成第一检测图像;将所述第一检测图像输入到卷积神经网络中进行匹配识别,生成初始候选框、分类识别信息以及分类识别信息对应的分类概率值;

S52、基于分类概率值确定每个初始候选框是否识别出目标物,将成功识别出目标物的初始候选框作为目标预测框;基于得到的若干个目标预测框进行目标物体的预测判断,设预测到目标物体的条件概率为Pr(Person|Object),将目标预测框中包含预测到的目标物体置信度Conf定义为:

其中,Pr(Object)用于判断是否有目标物落入目标预测框对应的网络单元格中;表示预测框与实际框的交集面积与并集面积之比;

S53、针对每个目标预测框,预测出其中包含目标物体的概率以及边界框的位置,每个目标预测框输出的预测值为:

[X,Y,W,H,Conf(Object),Conf];

其中,X、Y为预测框中心相对于网络单元格边界的偏移,W、H为预测框宽高相对于整幅图像之比;对于输入的每张图像数据,最终网络输出为向量M×N×B×[X,Y,W,H,Conf(Object),Conf]。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010039334.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top