[发明专利]数理化公式自动识别方法及装置、模型训练方法及装置在审
申请号: | 201910934436.0 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110705459A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 刘岩;王建超;李川;须佶成 | 申请(专利权)人: | 北京爱学习博乐教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 11303 北京方韬法业专利代理事务所(普通合伙) | 代理人: | 党小林 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数理化公式 自动识别 模型训练 神经网络 特征图像 解码器 图像识别 编码器 准确率 文本 | ||
本发明提供了一种数理化公式自动识别方法及装置、模型训练方法及装置。所述识别方法包括:利用基于多感受野的Inception结构的编码器神经网络,将数理化公式图像识别为特征图像;利用基于LSTM的解码器神经网络,将特征图像识别为文本。本发明提供的数理化公式自动识别方法及装置、模型训练方法及装置能够大幅提高公式自动识别的准确率。
技术领域
本发明涉及图像识别技术领域,特别是涉及一种数理化公式自动识别方法及装置、模型训练方法及装置。
背景技术
深度学习是2014年开始蓬勃发展的一个人工智能领域,其广泛应用到物体识别,语音识别,语言交互等方向。其底层原理是使用数学算法将图像,声音等原始数据转换为数字特征,并使用数学模型将这些特征转换为我们需要的类别,文本等内容。
光学字符识别(OCR)是使用深度学习进行一维文字识别的一项广泛使用的技术,其能识别的字符集包括数字,字母,各个语言的文字等一维内容。它的核心技术是根据文字的几何特征自动将照片,扫描件等不可编辑的内容转换为可编辑的字符串。
除了具备传统OCR的一维内容的识别的功能,这篇专利提出的技术也可以识别公式中例如分数,矩阵等二维信息。该技术可以将不可编辑的公式照片转换成照片中公式对应的Latex公式。之后便可以将Latex公式通过编译器将公式显示在Microsoft Office,Markdown,网页等媒介中。
现有公式识别的技术有两个方向,一个是传统策略,另外一个是基于深度学习的端到端策略。
传统方法中分为四个阶段:分别是预处理、公式检测、符号识别、符号的逻辑和语义关系的确定。预处理是指将输入图像通过传统策略对输入图像进行优化,例如去除噪音,修补断掉的笔划等。然后通过公式检测根据连通域提取公式中的独立符号。接着识别这些符号对应的字符内容。最后根据字符内容以及它们的坐标信息确定整个公式的Latex公式。
基于深度学习的方式是准备大量的成对的图片、公式的数据。然后使用这些数据自动学习一个网络模型。常见的策略有CRNN以及Image Caption等算法。
传统方法的缺点是准确率低,对数据质量要求高,泛化能力差且流程非常复杂。例如排版较密的公式就容易造成连通域检测的失败。而且像根号这种包含结构的符号对齐坐标的准确率要求极高,坐标检测错误便会造成包含内容的分析错误。
现有基于深度学习的方法并没有针具公式的特点设计对应的网络结构,例如CRNN并不擅长识别二维结构的公式。Image Caption的缺点是不擅长公式标签的精确识别,且其结构不适合公式场景从左上到右下的顺序特征。
发明内容
本发明要解决的技术问题是提供一种数理化公式自动识别方法及装置、模型训练方法及装置,能够大幅提高公式自动识别的准确率。
为解决上述技术问题,本发明提供了一种数理化公式自动识别模型训练方法,所述方法包括:采集属于不同数据源类型的数理化公式图像,以及所述数理化公式图像对应的公式文本;利用所述公式图像及其对应的文本数据训练由基于多感受野的Inception结构的编码器神经网络,以及基于LSTM的解码器神经网络共同组成的自动识别模型。
在一些实施方式中,对所述自动识别模型进行训练时,基于损失函数对所述自动识别模型进行训练所述损失函数根据如下公式给出:
其中,leni是指第i个公式的长度,lossi是指第i个公式的损失值。
在一些实施方式中,所述不同数据源类型包括:公司内部数据、试卷中提取的Latex公式,以及通过变异策略产生的随机公式。
在一些实施方式中,还包括:在采集属于不同数据源类型的数理化公式图像之后,对采集到的所述数理化公式图像进行归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱学习博乐教育科技有限公司,未经北京爱学习博乐教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910934436.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:边界检测方法及装置
- 下一篇:图像类别识别方法及装置