[发明专利]一种基于主动学习技术的机器人数据收集迭代训练方法、系统以及储存介质在审
| 申请号: | 202011533507.5 | 申请日: | 2020-12-22 |
| 公开(公告)号: | CN112906902A | 公开(公告)日: | 2021-06-04 |
| 发明(设计)人: | 秦豪;赵明 | 申请(专利权)人: | 上海有个机器人有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
| 代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 梁秀秀 |
| 地址: | 200120 上海市浦*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 主动 学习 技术 机器人 数据 收集 训练 方法 系统 以及 储存 介质 | ||
本发明公开了一种基于主动学习技术的机器人数据收集迭代训练方法、系统以及储存介质,包括如下步骤:S1、取预设比例的已标注的图片数据作为训练数据,并将剩下比例的图片数据作为测试数据;S2、建立监督深度学习模型,并用所述训练数据对深度学习模型进行训练优所述监督深度学习模型;S3、用所述测试数据对所述监督深度学习模型检测结果的置信度进行检测;S4、制定机器人收集粗略业务数据集策略,并收集的粗略业务数据集;S5、引入主动学习课程指导主动学习过程挖掘对收集的粗略业务数据中低置信度样本进行人工标注,本专利借助主动学习技术,实现了一种半监督的机器人数据收集迭代系统,大大提高了数据收集的有效性,减少了人工标注的成本。
技术领域
本发明涉及图像标注领域技术领域,尤其涉及一种基于主动学习技术的机器人数据收集迭代训练方法、系统以及储存介质。
背景技术
随着深度学习的发展,工业界越来越依赖目标检测,语义分割等监督学习技术,这类技术需要带特定标注数据作为支撑,通常来说,业务数据量越丰富,机器人目标检测识别率越高,而标注数据需要依靠有一定培训经验的人工标注,但在实际业务场景中,大批量数据的标注成本较高。
主动学习是一种通过技术手段或者数学方法来降低标注成本,提高数据集质量的一种方法,在机器人收集回放的无标签数据,运用主动学习的手段,挑选出有效的业务数据,并预打标签,再由人工审核微调标签,大大降低标注成本。
发明内容
本发明的目的之一在于,借助主动学习技术,筛选有效的业务数据,降低标注成本。
为实现上述目的,本发明提供了一种一种机器人数据收集迭代系统一种基于主动学习技术的机器人数据收集迭代训练方法,其特征在于,包括如下步骤:
S1、取预设比例的已标注的图片数据作为训练数据,并将剩下比例的图片数据作为测试数据;
S2、建立监督深度学习模型,并用所述训练数据对深度学习模型进行训练优所述监督深度学习模型;
S3、用所述测试数据对所述监督深度学习模型检测结果的置信度进行检测;
S4、制定机器人收集粗略业务数据集策略,并收集的粗略业务数据集;
S5、引入主动学习课程指导主动学习过程挖掘对收集的粗略业务数据中低置信度样本进行人工标注。
进一步地,还包括:收集和保存已标注的业务数据;
将图片中所有待检测的目标标注,记录每个目标类别,位置信息。
进一步地,所述S1具体步骤包括:从数据池中随机抽取70%数据作为训练数据,剩余30%数据作为测试数据,并将这类数据图片名称保存在不同的名称中两个文件中。
进一步地,采用随机梯度下降法、SGD和动量法方式分别用 YogoMini训练模型、YogoSmall训练模型、YogoMedium训练模型和 YogoBig训练模型对所述标记数据进行训练,其中,学习动量参数设定为0.9,卷积参数L2正则惩罚系数设定为0.001,学习率为多项式缓慢下降;
训练多次后终止训练保存各个检测器网络参数。
进一步地,设定粗略收集业务数据的标准;
在机器人运动决策层实施埋点,在机器人运动状态时,间隔预设时间内保存摄像头捕捉到的数据;
当业务模型识别结果影响机器人规划决策时,此时的摄像头数据设定为关键数据,并按照时间戳命名的方式保存,最后整合两组数据去除同名文件。
进一步地,将业务池中收集到的未标注数据集打包分别放入模型池中多个个不同规模的模型测试,保存不同模型的测试结果;
根据不同模型的测试结果采用一种交叉熵的策略筛选有效数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海有个机器人有限公司,未经上海有个机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011533507.5/2.html,转载请声明来源钻瓜专利网。





