[发明专利]一种多用户并发处理的数据标注方法在审
申请号: | 201911395068.3 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111159494A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 徐汕;张晶亮;梁炬;谢水庚;郝志强;滕源;姜桥 | 申请(专利权)人: | 北京航天云路有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/904 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 范赤 |
地址: | 100039 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多用户 并发 处理 数据 标注 方法 | ||
本发明公开了一种多用户并发处理的数据标注方法,该方法包括以下步骤:S1提供多种类标注规则的数据标注方案;S1.1基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;S2根据数据标注流程将获取的多种数据源进行数据标注;S2.1获取标注源数据;S2.2用户数据标注交互;S3进行多用户标注数据的存储;S3.1根据数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;S3.2多用户标注数据统一处理后存储。本发明的有益效果:本申请基于公司自主研发的数据标注应用平台,面向企业和个人提供了快速、高效、结果精准的工业数据标注和数据存储服务。
技术领域
本发明涉及数据标注领域,支持多用户同时进行数据标注并进行标注数据的存储,具体来说,涉及一种多用户并发处理的数据标注方法。
背景技术
随着人工智能(Artificial Intelligence)领域的迅速发展,它将人类智能相似的方式做出反应的智能机器,人工智能领域会使用到很多深度学习算法,当前大部分的深度学习还集中在监督式的学习,所以对于很多人工智能领域诸如人脸识别、用户行为分析、智能驾驶等都需要通过数据标注和采集工作来提供海量的训练数据集。
北京航天云路公司紧随AI潮流,目前已经形成了一个较完整的人工智能布局,而数据的标注与采集是这一大布局中不可缺少的基础一环,为了解决数据标注与采集领域的数据质量和降低成本两大难点,本公司构建了一个人工数据标注平台,包括标注模块、管理模块以及数据集生成和下载三个模块,利用了大众能力和资源,降低了数据生产成本。
发明内容
针对相关技术中的上述技术问题,本发明提出一种多用户并发处理的数据标注方法,通过本申请自研的数据标注平台向企业和个人提供稳定、高效、可靠的多用户同时标注的解决方案和实现方法。
为实现上述技术目的,本发明的技术方案是这样实现的:该方法包括以下步骤:
S1 提供多种类标注规则的数据标注方案;
S1.1 基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;
S2 根据数据标注流程将获取的多种数据源进行数据标注;
S2.1 获取标注源数据;
S2.2 用户数据标注交互;
S3 进行多用户标注数据的存储;
S3.1 根据标注的数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;
S3.2 多用户标注数据统一处理后存储。
进一步地,所述S1.1包含以下步骤:S1.1.1 知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取;S1.1.2 图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字;S1.1.3 工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词,将获得的工业名词标注区分后判断是否属于工业领域。
进一步地,所述S2.1包含以下步骤:S2.1.1 获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据;S2.1.2 采集ElasticSearch集群的存储数据,文本数据、商品图片描述数据及源于Mysql数据库的存储数据;S2.1.3 完成数据标注任务发布后,运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中;S2.1.4用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。
进一步地,所述S2.2包含以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天云路有限公司,未经北京航天云路有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911395068.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置