[发明专利]识别分式图像的训练方法与装置、识别方法及装置在审

专利信息
申请号: 201910962708.8 申请日: 2019-10-11
公开(公告)号: CN110728321A 公开(公告)日: 2020-01-24
发明(设计)人: 曹润东;赵晖;饶丰 申请(专利权)人: 北京一起教育信息咨询有限责任公司
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 11227 北京集佳知识产权代理有限公司 代理人: 林哲生
地址: 100102 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 上下结构 映射结果 标注 准确率 空间特征 相符 图像样本 对分式 通用的 字符串 映射 替换 图像
【说明书】:

发明实施例提供识别分式图像的训练方法与装置、识别方法及装置,以提高CRNN模型对上下结构分式的识别准确率。在本发明实施例中,在训练CRNN之前,会对分式图像样本的标注进行映射,得到的映射结果。随后,使用映射结果替换标注后,再对CRNN训练。由于映射结果包括与上下结构的分式的空间特征相符的字符串,因此,使用映射结果作为标注可避免现有方式中,因通用的分式标注中存在与分式空间特征不相符的字符,而导致CRNN模型对上下结构的分式识别准确率较低的问题,采用本实施例所提供的技术方案训练出来的CRNN模型对上下结构分式的识别准确率相对较高。

技术领域

本发明涉及网络技术领域,特别涉及识别分式图像的训练方法与装置、识别方法及装置。

背景技术

随着互联网的普及,数学作业自动批改被越来越多的人所使用。例如:数学教师可批量拍照,使用作业自动批改服务对图像中的内容进行批改,一次完成对多份作业的批改,减轻教师基础性、重复性的批改动作;再例如,学生家长在检查数据作业时,可使用作业自动批改服务进行批改;再例如,学生完成作业后,可通过作业自动批改服务进行自查。

在数学作业自动批改场景中会遇到图像中有数学公式的情况,其中类似于分式这种上下结构的文本,如何进行识别是目前研究的热门。

作为OCR的经典模型之一,CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)在自然场景的文本识别方面应用很广。

CRNN是一种用于文字识别的网络结构,在预测阶段,向训练好的CRNN模型输入图像,其将输出所输入图像中包含的字符串。举例来讲,向训练好的CRNN模型输入如图1所示的照片,照片中包含文本字符“wind”,训练好的CRNN模型输出字符串“wind”。

在预测之前,需要使用图像样本和相应的标注(即标签)对CRNN模型进行训练,训练好的CRNN模型可用于文字识别。

图像样本所对应的标签的标注内容,是图像中的字符意义。仍以图1为例,若图1作为图像样本,其对应的标注内容是字符串“wind”。

为了使CRNN模型能识别分式,可在训练数据中加入足够的分式图像样本和相应的分式标签,使用分式图像样本及对应的标签对CRNN模型进行训练,令CRNN模型能够学习到分式的特征,从而能在预测阶段(也即正式使用阶段)识别含上下结构的分式。

然而,发明人在实现本发明的过程中发现:传统的分式标注对于CRNN模型的训练并不友好,进而导致CRNN模型对于上下结构分式的识别准确率较低。这是因为:

传统(通用)的分式标注是采用LaTeX字符串进行标注的。以图2所示的一张包含的图片为例,其对应的标注内容是LaTeX字符串“\frac{2}{15}”。

然而,观察图2可知,图2中的数字字符包括“2”、“1”、“5”,但并不存在与LaTeX字符串中的“\frac”相对应的字符,因此,“\frac”这几个字符,在图2所示的图像中并没有相应的空间特征;同理,LaTeX字符串中的括号符号“{”和“}”,在图2所示的图像中也并没有与之对应的空间特征。

因此,使用通用的分式标注进行训练,训练出来的CRNN模型对上下结构分式的识别准确率较低。

发明内容

有鉴于此,本发明实施例提供识别分式图像的训练方法与装置、识别方法及装置,以提高CRNN模型对上下结构分式的识别准确率。

为实现上述目的,本发明实施例提供如下技术方案:

一种识别分式图像的训练方法,包括:

获取带标注的分式图像样本;所述分式图像样本中包括上下结构的分式;所述标注包括表征所述上下结构的分式的字符意义的分式标注字符串;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京一起教育信息咨询有限责任公司,未经北京一起教育信息咨询有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910962708.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top