[发明专利]一种图像数据处理方法及装置有效

专利信息
申请号: 201610504477.2 申请日: 2016-06-30
公开(公告)号: CN107562742B 公开(公告)日: 2021-02-05
发明(设计)人: 杨现;陈雪峰 申请(专利权)人: 江苏苏宁云计算有限公司
主分类号: G06F16/55 分类号: G06F16/55
代理公司: 江苏圣典律师事务所 32237 代理人: 苏一帜
地址: 210042 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 图像 数据处理 方法 装置
【说明书】:

发明实施例公开了一种图像数据处理方法及装置,涉及大数据技术领域,能够降低海量图像数据标注过程中所耗费的人力成本。本发明包括:根据所获取的关键词得到图像数据;对所述图像数据进行聚类处理,并得到对应所述关键词的聚类中心;筛选出匹配所述聚类中心的图像数据,并通过所述关键词标注所述匹配所述聚类中心的图像数据,并将所标注的图像数据导入样本库。本发明适用于图像识别引擎或者图像处理应用的训练数据的自动标识。

技术领域

本发明涉及大数据技术领域,尤其涉及一种图像数据处理方法及装置。

背景技术

目前,大数据技术被广泛应用在了各项国防和民用工程中,尤其是应用在了各大电商平台的运维优化中。近几年,随着各大电商平台的数据规模和复杂程度都呈几何爆炸式增长,如何对海量的用户数据、交易数据、商户数据等进行有效利用,成为了各大电商平台的研究重点。

这其中,尤其是利用深度学习模型在图像识别方面,设计并研发了大量成功方案。这些方案的大致思路包括:将大量准确标注过的图像数据作为基础样本,并结合海量样本数据对模型进行训练计算,从而有针对性的优化模型使之适应当前的具体业务环境。这些方案对于基础样本的标注准确率要求很高,基于高质量的标注数据支撑训练计算,才能得到最优的模型。因此,训练计算所使用的海量样本数据可以从数据库中自动提取并处理,但是由于基础样本对于准确性的要求,依然需要进行人工标注;或者是在少量的人工标注的数据基础上寻找近邻相似数据再做成基础样本。

由此可见,在目前的方案中,虽然已经能够实现对于海量样本数据的处理,但是仍需要人工先标注一些样本数据,而由于数据量每年都在不断飙升,因此人工标注的工作量越来越大,人工成本在快速上涨。并且,人工标注的样本数据还是会受到人为主观影响,使得一部分预先标注的数据基础质量不高,或者泛化能力不强,使得在人工标注的数据基础上寻找近邻相似数据再做成的基础样本质量较差,最终导致所优化的模型在实际业务环境中执行效果低。

发明内容

本发明的实施例提供一种图像数据处理方法及装置,能够降低海量图像数据标注过程中所耗费的人力成本。

为达到上述目的,本发明的实施例采用如下技术方案:

第一方面,本发明的实施例提供的方法,包括:

根据所获取的关键词得到图像数据;对所述图像数据进行聚类处理,并得到对应所述关键词的聚类中心;筛选出匹配所述聚类中心的图像数据,并通过所述关键词标注所述匹配所述聚类中心的图像数据,并将所标注的图像数据导入样本库。

结合第一方面,在第一方面的第一种可能的实现方式中,所述根据所获取的关键词得到图像数据,包括:获取用户操作数据,并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据;并所述文本信息中提取关键词,并将所述文本信息对应的图像数据作为对应所提取关键词的图像数据。

结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述获取用户操作数据,并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据,包括:获取用户在指定时间段内的检索记录;从所述检索记录中提取检索词作为所述关键词,并获取具有点击操作的检索项信息;获取所述检索项信息对应的图像数据作为对应所提取关键词的图像数据。

结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述获取用户操作数据,并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据,包括:获取用户在指定时间段内的上传数据,并确定显示所述上传数据的界面的属性信息;从所述属性信息中提取所述关键字,并从所述上传数据中提取图像数据作为对应所提取关键词的图像数据。

结合第一方面,在第一方面的第四种可能的实现方式中,在对所述图像数据进行聚类处理之前,还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏苏宁云计算有限公司,未经江苏苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610504477.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top