[发明专利]图片录入方法、服务器及计算机存储介质有效
申请号: | 201810525540.X | 申请日: | 2018-05-28 |
公开(公告)号: | CN108921193B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 张师琲;侯丽;王炜 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/771 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 录入 方法 服务器 计算机 存储 介质 | ||
1.一种图片录入方法,应用于服务器,其特征在于,所述方法包括步骤:
接收图片抓取请求,启动图片抓取任务,所述抓取任务包含抓取主进程,该抓取主进程分析所述抓取请求与预设图片抓取规则的映射关系,根据所述映射关系启动若干抓取子进程进行图片异步抓取,所述抓取子进程对应于基于所述预设图片抓取规则建立的图片抓取模型;
将抓取的图片存储到第一数据集,获取该第一数据集中图片的图片属性信息及图片特征,根据所述图片属性信息对图片进行初步分类,并将所述图片属性信息作为标签信息对图片进行初步标注;
选取所述第一数据集中的第一图片,在所述第一数据集中选择在所述图片特征上与所述第一图片相近的多个其它图片,通过用所述多个其它图片的图片特征拟合所述图片的图片特征,获得所述第一图片的多个拟合系数;根据所述第一图片的所述多个拟合系数,利用所述多个其它图片的标签来构造所述第一图片的标签,通过构造的所述标签对该第一图片进行再次标注;及
将分类及两次标注后的图片按照分类的结果进行分布式存储;
其中,所述预设图片抓取规则包括:第一抓取规则,所述第一抓取规则为按指定的URL抓取,基于所述第一抓取规则建立第一抓取模型;第二抓取规则,所述第二抓取规则为使用正则匹配来进行范围抓取,基于所述第二抓取规则建立第二抓取模型;及第三抓取规则,所述第三抓取规则为指定页面元素进行抓取,基于所述第三抓取规则建立第三抓取模型。
2.如权利要求1所述的图片录入方法,其特征在于,图片抓取过程中,还包括模拟人工访问步骤以应对目标网站的防抓取限制,所述模拟人工访问步骤具体包括:
找到登录所述目标网站的隐藏信息,并将其内容先进行保存,所述隐藏信息为登录所述目标网站需要的信息;
将所述隐藏信息进行提交,模拟登录网站;及
模拟登录成功后,开始获取登录后的信息,对所述目标网站的图片按照所述预设图片抓取规则进行抓取。
3.如权利要求2所述的图片录入方法,其特征在于,所述主进程还用于监控所述若干抓取子进程中的图片抓取任务的数量,当有新的图片抓取任务到来时,所述主进程将所述新任务分发给所述若干抓取子进程中图片抓取任务数量小于预设值的子进程,当所有抓取子进程的图片抓取任务都大于所述预设值时,所述主进程新建一个子进程,并将新任务分发到新建的子进程。
4.如权利要求1-3任一项所述的图片录入方法,其特征在于,选取相近的多个其他图片的方法为:
提取所述第一数据集中的每一个图片的所述图片特征;
计算当前图片和剩余图片的特征的距离;及
选择距离最小的预设数量的图片作为给定图片的预设数量的最近邻图片;
其中,所述当前图片为随机或者顺序选择的图片。
5.如权利要求4所述的图片录入方法,其特征在于,所述特征为颜色直方图特征、纹理或者形状特征,所述距离为欧氏距离。
6.如权利要求5所述的图片录入方法,其特征在于,为了获得所述第一数据集中所有图片的标签,还包括步骤:
随机或顺序选择所述第一数据集中的一个图片;
利用对应于所选图片的多个其它图片的标签,以对应的拟合系数来拟合所选图片的标签;及
重复上述步骤,直至为所述第一数据集中的每一个图片构造了标签。
7.一种服务器,其特征在于,所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图片录入系统,所述图片录入系统被所述处理器执行时实现如权利要求1-6中任一项所述的图片录入方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有图片录入系统,所述图片录入系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-6中任一项所述的图片录入方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810525540.X/1.html,转载请声明来源钻瓜专利网。