[发明专利]数理化公式自动识别方法及装置、模型训练方法及装置在审
申请号: | 201910934436.0 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110705459A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 刘岩;王建超;李川;须佶成 | 申请(专利权)人: | 北京爱学习博乐教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 11303 北京方韬法业专利代理事务所(普通合伙) | 代理人: | 党小林 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数理化公式 自动识别 模型训练 神经网络 特征图像 解码器 图像识别 编码器 准确率 文本 | ||
1.一种数理化公式自动识别模型训练方法,其特征在于,包括:
采集属于不同数据源类型的数理化公式图像,以及所述数理化公式图像对应的公式文本;
利用所述公式图像及其对应的文本数据训练由基于多感受野的Inception结构的编码器神经网络,以及基于LSTM的解码器神经网络共同组成的自动识别模型。
2.根据权利要求1所述的数理化公式自动识别模型训练方法,其特征在于,对所述自动识别模型进行训练时,基于损失函数对所述自动识别模型进行训练所述损失函数根据如下公式给出:
其中,leni是指第i个公式的长度,lossi是指第i个公式的损失值。
3.根据权利要求1所述的数理化公式自动识别模型训练方法,其特征在于,所述不同数据源类型包括:公司内部数据、试卷中提取的Latex公式,以及通过变异策略产生的随机公式。
4.根据权利要求1所述的数理化公式自动识别模型训练方法,其特征在于,还包括:
在采集属于不同数据源类型的数理化公式图像之后,对采集到的所述数理化公式图像进行归一化。
5.根据权利要求1所述的数理化公式自动识别模型训练方法,其特征在于,还包括:
训练得到所述自动识别模型之后,对所述自动识别模型进行测试。
6.一种数理化公式自动识别方法,其特征在于,包括:
利用基于多感受野的Inception结构的编码器神经网络,将数理化公式图像识别为特征图像;
利用基于LSTM的解码器神经网络,将特征图像识别为文本。
7.根据权利要求6所述的数理化公式自动识别方法,其特征在于,还包括:
在利用基于多感受野的Inception结构的编码器神经网络,将数理化公式图像识别为特征图像之前,对来自不同数据源类型的数理化公式图像进行归一化处理;
所述归一化处理,包括:显示功能符号的归一化,以及结构相同符号的归一化。
8.根据权利要求7所述的数理化公式自动识别方法,其特征在于,利用基于LSTM的解码器神经网络,将特征图像识别为文本,包括:
将三维特征图按轴合并成一个的二维矩阵;
该二维矩阵经过一层注意力机制后会为每一个特征图学习一个权值;
同时LSTM中前一个时间片的隐层节点的输出经过Dropout处理后也将为每一个特征图学习一个权值;
将这两个权值的均值将作为最终的权值,并通过点乘的方式得到加权的特征图;
经过Dropout的LSTM隐层节点会经过一层全连接进行编码;
然后再和加权的特征图进行单位加后再经过一层Dropout和一层全连接作为下一个时间片的LSTM的隐层节点的输入;
训练标签数字化后经过word2vec编码成一组特征向量;
根据上一个LSTM时间片的输出也得到另一组特征向量;
将两组特征向量拼接之后输入到当前时间片的LSTM中;
经过一个LSTM的计算得到当前时间片的输出和隐层节点的状态;
依次按照标签作为时间片处理,最终整合所有每一个时间片的输出就是我们预测的输入图像对应的Latex公式。
9.一种数理化公式自动识别模型训练装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至5任意一项所述的数理化公式自动识别模型训练方法。
10.一种数理化公式自动识别装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求6至8任意一项所述的数理化公式自动识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱学习博乐教育科技有限公司,未经北京爱学习博乐教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910934436.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:边界检测方法及装置
- 下一篇:图像类别识别方法及装置