[发明专利]公式识别方法、装置、设备及存储介质在审

专利信息
申请号: 201911269577.1 申请日: 2019-12-11
公开(公告)号: CN111079745A 公开(公告)日: 2020-04-28
发明(设计)人: 易显维 申请(专利权)人: 中国建设银行股份有限公司;建信金融科技有限责任公司
主分类号: G06K9/32 分类号: G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京市兰台律师事务所 11354 代理人: 张峰
地址: 100033 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 公式 识别 方法 装置 设备 存储 介质
【说明书】:

发明提供一种公式识别方法、装置、设备及存储介质,涉及数据处理技术领域。本发明通过获取公式图像,采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域,对至少一个字符区域进行识别,获取各字符区域中的字符,并根据各字符区域中的字符,生成公式图像对应的latex格式的公式文本,可以识别得到公式图像中所包含的公式。其中,预设分割网络可以通过采用样本公式图像、以及样本公式图像对应的蒙版所构成的样本公式图像集合对Unet网络进行训练所获取,采用该预设分割网络可以对公式图像中的字符区域进行更准确地分割,有效降低字符之间粘连对分割效果所造成的不确定影响,进而提高公式识别的准确性。

技术领域

本发明涉及数据处理技术领域,具体而言,涉及一种公式识别方法、装置、设备及存储介质。

背景技术

公式识别一般是指对包含有公式的图像进行识别,将图像中包含的公式转换为计算机可识别的表达式的过程,如,可以对数学公式图像进行识别,将数学公式图像中包含的数学公式转化为拉泰赫(latex)格式的数学表达式,以便于计算机可以基于公式进行计算,或者将公式进行存储等。例如,对于一些需要录入数据库进行存储、且包含有公式的文本内容、题目等,则可以通过扫描获取文本内容、题目等的图像,然后基于公式识别算法对图像进行识别,获取其中包含的公式进行存储。

现有技术中,公式识别的方法一般为:通过连通域的方式对公式图像进行字符分割,每个字符是一个连通域,不同字符之间是不同的连通域;然后,可以基于字符分割结果对字符进行识别,从而识别出整个公式。

但是,采用上述现有的公式识别方法,对一些存在粘连字符的公式图像进行识别时,识别准确性不高。例如,对于一些手写表达式的公式图像而言,公式中往往会存在粘连字符,而上述现有的公式识别方法对此类手写表达式并不能进行很好地识别。

发明内容

本发明提供一种公式识别方法、装置、设备及存储介质,可以对公式图像中包含的公式进行更准确地识别。

第一方面,本发明实施例提供一种公式识别方法,该方法包括:

获取公式图像;采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域;其中,预设分割网络通过采用样本公式图像集合对Unet网络进行训练所获取,样本公式图像集合包括:样本公式图像、以及样本公式图像对应的蒙版;对至少一个字符区域进行识别,获取各字符区域中的字符;根据各字符区域中的字符,生成公式图像对应的拉泰赫latex格式的公式文本。

可选地,所述获取公式图像,包括:

获取包含有公式的图像信息;采用预设的高校场景文本检测网络对图像信息中的公式区域进行定位,得到公式图像。

可选地,所述采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域之前,该方法还包括:

获取随机生成的样本公式图像、以及样本公式图像对应的蒙版,得到样本公式图像集合;根据样本公式图像集合对Unet网络进行训练,得到预设分割网络。

可选地,所述对至少一个字符区域进行识别,获取各字符区域中的字符之前,该方法还包括:

获取样本字符图像集合,样本字符图像集合包括:样本字符图像、以及样本字符图像对应的字符标签,字符标签用于指示对应的样本字符图像中的字符;根据样本字符图像集合,对卷积神经网络进行训练,得到预设识别网络。

所述对至少一个字符区域进行识别,获取各字符区域中的字符,包括:

对于任一个字符区域:采用预设识别网络对字符区域进行识别,获取字符区域中的字符。

可选地,所述采用预设分割网络对公式图像进行分割,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司;建信金融科技有限责任公司,未经中国建设银行股份有限公司;建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911269577.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top