[发明专利]样本标注方法及计算机存储介质有效
| 申请号: | 201810134135.5 | 申请日: | 2018-02-09 |
| 公开(公告)号: | CN110135407B | 公开(公告)日: | 2021-01-29 |
| 发明(设计)人: | 兴百桥 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/62 |
| 代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
| 地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本 标注 方法 计算机 存储 介质 | ||
本发明提供了一种样本标注方法及计算机存储介质。该样本标注方法,包括:通过字符检测模型对待标注的样本图像进行检测,根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框;针对每个字符框,判断当前字符框是否满足以下条件中的至少两个:当前字符框的宽度大于第一预设值,当前字符框的宽高比大于第二预设值,当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值;若是,则将当前字符框对应的字符标注为分式线,并进行分式线处理。该样本标注方法的标注效果更好。
技术领域
本发明涉及计算机技术领域,尤其涉及一种样本标注方法及计算机存储介质。
背景技术
随着人工智能和机器学习技术的发展,越来越多的领域开始采用机器学习方法训练设备,使之具有一定的智能性。随之而来的是对训练样本的需求增长。例如,在训练光学字符检测模型和识别模型时都需要大量的标注样本,标注样本是指在真实样本上通过人工标注出用于指示字符位置的字符框和字符类别。现有的在获取真实样本时利用纯手工标注的方法,存在着效率低的问题,而且因为人工标注会有一定的精度损失,例如存在人工失误造成字符位置标注不准确,字符内容标注错误的情况,这使得标注后的样本在进行机器学习方法训练设备时效果不能发挥最好。
现有的字符检测模型可以实现自动化字符检测,并可以通过字符框的方式对字符进行标识,但也存在着一些问题,例如,在包含公式的样本图像中,可能存在一些公式符号,例如分式线、根号、加号和减号等,这些公式符号通过现有的字符检测模型可能被误检测为其他字形类似的字符或者根本不能被检测,使得字符检测的准确度下降,需要人工进行大量修正,增加了人工的劳动强度。在通过人工修正时,又存在着前述的人工标注精度低的问题。总之,现有的通过字符标注方法存在着效率低、精度不好的问题。
发明内容
有鉴于此,本发明实施例提供一种样本标注方法及计算机存储介质,以解决现有技术中真实样本标注准确率低的问题。
本发明实施例提供一种样本标注方法,其包括:通过字符检测模型对待标注的样本图像进行检测,根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框;针对每个字符框,判断当前字符框是否满足以下条件中的至少两个:当前字符框的宽度大于第一预设值,当前字符框的宽高比大于第二预设值,当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值;若是,则将当前字符框对应的字符标注为分式线,并进行分式线处理。
根据本发明的另一方面,提供一种计算机存储介质,该计算机存储介质存储有:用于通过字符检测模型对待标注的样本图像进行检测,根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框的指令;用于针对每个字符框,判断当前字符框是否满足以下条件中的至少两个的指令,其中,以下条件包括:当前字符框的宽度大于第一预设值,当前字符框的宽高比大于第二预设值,当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值;用于当满足至少两个条件时,将当前字符框对应的字符标注为分式线,并进行分式线处理的指令。
本发明实施例提供的一种样本标注方案,通过字符检测模型对待标注的样本图像进行检测,并能够根据检测结果确定用于指示样本图像中各个字符位置的字符框。通过确定并标注分式线对应的字符框,并对确定的字符框进行分式线处理,使得通过该样本标注方法标注的样本图像可以有效避免分式线对应的字符框影响后续机器学习模型训练效果的问题。此外,该样本标注方法可以对分式线对应的字符框进行自动处理,减少了人工校对的工作量,且保证了样本标注的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种样本标注方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810134135.5/2.html,转载请声明来源钻瓜专利网。





