[发明专利]图片录入方法、服务器及计算机存储介质有效
申请号: | 201810525540.X | 申请日: | 2018-05-28 |
公开(公告)号: | CN108921193B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 张师琲;侯丽;王炜 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/771 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 录入 方法 服务器 计算机 存储 介质 | ||
本发明公开了一种图片录入方法,该方法包括:接受图片抓取请求,启动图片抓取任务进行图片异步抓取,将抓取的图片存储到第一数据集,获取图片属性信息及图片特征,对图片进行初步分类,并将所述图片属性信息作为标签信息对图片进行初步标注,选取所述第一数据集中的第一图片,选择在图片特征上与所述图片相近的多个其它图片,获得所述第一图片的多个拟合系数,根据所述第一图片的所述多个拟合系数,利用其它图片的标签来构造所述第一图片的标签,通过所述标签对该第一图片进行再次标注。本发明还提供一种服务器及计算机可读存储介质。本发明提供的图片录入方法、服务器及计算机可读存储介质能够对获取的图片进行高效、迅捷的分类及标注。
技术领域
本发明涉及图片识别技术领域,尤其涉及一种图片录入方法、服务器及计算机存储介质。
背景技术
一般图片识别所用的基础图片存在来源稀少的问题,例如一般图片识别所用的基础图片由使用单位自行录入各自的数据平台,且录入信息单一。另外,在识别之前对所述基础图片需要进行大量的人工分类和标注。在绝大多数项目中,70%的时间都在数据采集和标注上,浪费了很多的时间和人力。并且在人工标注和分类时,存在着操作方面的失误,同时效率低下。
因此,如何快速获得大量图片,并对这些图片进行高效分类及标注成了当下一大亟需解决的问题。
发明内容
有鉴于此,本发明提出一种图片录入方法、服务器及计算机存储介质,以解决如何快速获得大量图片,并对这些图片进行高效分类及标注的问题。
首先,为实现上述目的,本发明提出一种图片录入方法,该方法包括步骤:
接收图片抓取请求,启动图片抓取任务,所述抓取任务包含一抓取主进程,该抓取主进程分析所述抓取请求与预设图片抓取规则的映射关系,根据所述映射关系启动若干抓取子进程进行图片异步抓取,所述抓取子进程对应于基于所述预设图片抓取规则建立的图片抓取模型;
将抓取的图片存储到第一数据集,获取该第一数据集中图片的图片属性信息及图片特征,根据所述图片属性信息对图片进行初步分类,并将所述图片属性信息作为标签信息对图片进行初步标注;
选取所述第一数据集中的第一图片,在所述第一数据集中选择在所述图片特征上与所述第一图片相近的多个其它图片,通过用所述多个其它图片的图片特征拟合所述图片的图片特征,获得所述第一图片的多个拟合系数;
根据所述第一图片的所述多个拟合系数,利用所述多个其它图片的标签来构造所述第一图片的标签,通过构造的所述标签对该第一图片进行再次标注;及
将分类及两次标注后的图片按照分类的结果进行分布式存储;
其中,所述预设图片抓取规则包括:
第一抓取规则,所述第一抓取规则为按指定的URL抓取,基于所述第一抓取规则建立第一抓取模型;
第二抓取规则,所述第二抓取规则为使用正则匹配来进行范围抓取,基于所述第二抓取规则建立第二抓取模型;及
第三抓取规则,所述第三抓取规则为指定页面元素进行抓取,基于所述第三抓取规则建立第三抓取模型。
优选地,图片抓取过程中,还包括模拟人工访问步骤以应对目标网站的防抓取限制,所述模拟人工访问步骤具体包括:
找到登录所述目标网站的隐藏信息,并将其内容先进行保存,所述隐藏信息为登录所述目标网站需要的信息;
将所述隐藏信息进行提交,模拟登录网站;及
模拟登录成功后,开始获取登录后的信息,对所述目标网站的图片按照所述预设图片抓取规则进行抓取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810525540.X/2.html,转载请声明来源钻瓜专利网。