[发明专利]文本识别方法、装置、电子设备、存储介质有效
申请号: | 202110688368.1 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113255668B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 秦勇 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京北汇律师事务所 11711 | 代理人: | 李英杰 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 存储 介质 | ||
本公开提供了一种文本识别方法、装置、电子设备及存储介质,其中,该方法包括:确定待识别文本图像;提取该待识别文本图像的第一图像编码特征,并根据该待识别文本图像获取字符中心点得分图;根据第一图像编码特征和字符中心点得分图,获取第二图像编码特征;对第二图像编码特征进行解码,获取该待识别文本图像中的字符序列。解决了现有技术中基于序列的方法可能会有漏识别或多识别的问题,提出一种全新的文本识别方法,能够更好的实现文本识别功能。
技术领域
本公开涉及文本检测、识别技术领域,具体涉及文本识别方法、装置、电子设备及存储介质。
背景技术
文本检测与识别应用范围广泛,是很多计算机视觉任务的前置步骤,比如图像搜索、身份认证和视觉导航等。文本检测的主要目的是定位文本行或字符在图像中的位置,而文本识别是将带文本行图像转录成字符序列(识别其内容)。文本的精准定位和准确识别既十分重要又具备挑战,相较于通用目标检测和识别来说,文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点。因此,传统目标检测和识别上较为成功的算法无法直接迁移到文字检测中,但近年来随着深度学习的再次兴起,对文本检测和识别的研究也成为了一大热点,出现了大量专用于文本检测和识别的方法,且都取得了较好的效果。
自然场景文字识别是在带文字的图片中识别出字符序列(对于中文,一个字符便是一个汉字,对于英文,一个字符便是一个字母)。它是一项具有极大挑战性的课题,除了图片背景复杂,光照变化等因素外,识别输出空间的复杂性也是一大困难。通常在带文字的图片中字符数量不固定,因此,自然场景文字识别需要从图片中识别长度不固定的字符序列。目前有两种解决思路,为基于字符的方法和基于序列的方法,但是基于字符的方法标注成本高,并且基于序列的方法可能会有漏识别或多识别的问题。
针对现有技术中基于字符的方法标注成本高,以及基于序列的方法可能会有漏识别或多识别的问题,还未提出有效的解决方案。
发明内容
有鉴于此,本公开实施例提供了一种文本识别方法、装置、电子设备及存储介质文,以解决现有技术中在文字识别过程中,基于序列的方法可能会有字符漏识别或多识别的问题。
为此,本公开实施例提供了如下技术方案:
本公开第一方面,提供了一种文本识别方法,包括:
确定待识别文本图像;
提取所述待识别文本图像的第一图像编码特征,并根据所述待识别文本图像获取字符中心点得分图;
根据所述第一图像编码特征和所述字符中心点得分图,获取第二图像编码特征;
对所述第二图像编码特征进行解码,获取所述待识别文本图像中的字符序列。
可选地,根据所述第一图像编码特征和所述字符中心点得分图,获取第二图像编码特征包括:
将所述字符中心点得分图与所述第一图像编码特征的特征映射进行逐点相乘,获取所述第二图像编码特征。
可选地,提取所述待识别文本图像的第一图像编码特征,并根据所述待识别文本图像获取字符中心点得分图包括:
将所述待识别文本图像输入至CRNN模型中的指定Resnet网络,获取所述第一图像编码特征以及所述指定Resnet网络中多个块输出的多个图像特征;
将所述多个图像特征进行串联叠加并经过卷积处理,获取所述字符中心点得分图。
可选地,所述方法还包括:
所述指定Resnet网络由N个块串联构建;
第n个块输出所述待识别文本图像大小的1/2n+1的特征映射;n取值为1至N;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110688368.1/2.html,转载请声明来源钻瓜专利网。