[发明专利]一种训练样本标注方法、装置、设备及介质在审

申请号：	201910329181.5	申请日：	2019-04-23
公开（公告）号：	CN110059828A	公开（公告）日：	2019-07-26
发明（设计）人：	陈鑫;赵明	申请（专利权）人：	杭州智趣智能信息技术有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	罗满
地址：	310000 浙江省杭州市滨***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练样本目标训练样本结构类型标注内容识别标注装置结果标注内容一致人工成本全面性迭代补充保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种训练样本标注方法、装置、设备及介质，该方法的步骤包括：通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果；当各识别结果的内容一致时，以识别结果标注目标训练样本。本方法通过具有不同结构类型的识别模型共同对目标训练样本进行内容识别，以此达到多种结构类型识别模型的识别效果相互迭代的效果，因此各结构类型的识别模型之间能够相互补充对目标训练样本的识别全面性以及准确性，相对降低了标注训练样本的整体人工成本，并相对保证了对训练样本的标注效率。此外，本发明还提供一种训练样本标注装置、设备及介质，有益效果同上所述。

技术领域

本发明涉及深度学习领域，特别是涉及一种训练样本标注方法、装置、设备及介质。

背景技术

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本，识别模型是深度学习的阶段性成果，识别模型能够类型于人脑，具有辨别所学内容的能力。

当前对深度学习网络进行数据样本训练，以生成识别模型的过程，首先需要技术人员对训练样本进行标注，以此明确训练样本中的实际内容，进而将训练样本输入深度学习网络进行识别，并通过不断修改深度学习网络中的参数，逐渐增加深度学习网络对训练样本的识别准确性，当识别准确率达到一定的范围时，则可认为深度学习网络转化为识别模型。但是在真实的应用场景中，由于用户对于识别模型的识别准确性要求较高，因此在识别模型的训练过程中需要输入海量的数据样本，并且在训练海量的数据样本之前，需要技术人员逐一对数据样本进行内容的标注，因此大大增加了标注训练样本的人工成本并且难以确保对训练样本的标注效率。

由此可见，提供一种训练样本标注方法，以相对降低标注训练样本的整体人工成本，并相对保证训练样本的标注效率，是本领域技术人员需要解决的问题。

发明内容

本发明的目的是提供一种训练样本标注方法、装置、设备及介质，以相对降低标注训练样本的整体人工成本，并相对保证训练样本的标注效率。

为解决上述技术问题，本发明提供一种训练样本标注方法，包括：

通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果；

当各识别结果的内容一致时，以识别结果标注目标训练样本。

优选的，在当各识别结果的内容一致时，以识别结果标注目标训练样本之后，方法还包括：

利用目标训练样本对多种结构类型的识别模型进行训练，生成多种结构类型的新识别模型；

通过多种结构类型的新识别模型对新目标训练样本进行标注。

优选的，在通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果之后，方法还包括：

当各识别结果的内容存在差异时，将目标训练样本标记为新目标训练样本。

优选的，当存在多个目标训练样本时，利用目标训练样本对多种结构类型的识别模型进行训练，生成多种结构类型的新识别模型，包括：