[发明专利]文本识别的方法、装置、设备和存储介质有效

申请号：	202110477187.4	申请日：	2021-04-30
公开（公告）号：	CN112990181B	公开（公告）日：	2021-08-24
发明（设计）人：	王翔;秦勇	申请（专利权）人：	北京世纪好未来教育科技有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/34;G06K9/46;G06K9/62;G06F40/279;G06N3/04;G06N3/08
代理公司：	北京市铸成律师事务所 11313	代理人：	杨瑾瑾;武晨燕
地址：	100080 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本识别方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提出一种文本识别的方法、装置、设备和存储介质，涉及文本识别领域。具体实现方法包括：使用多个卷积神经网络分别提取待检测图像不同尺度的特征；对提取的该不同尺度的特征进行融合得到特征向量；对该特征向量进行卷积操作得到概率矩阵；在前向过程中对该概率矩阵进行解码得到识别的字符串。采用本申请实施例，可以有效地提升文本识别的精度和速度。

技术领域

本申请涉及文本识别领域，尤其涉及一种文本识别的方法、装置、设备和存储介质。

背景技术

文本检测与识别应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、身份认证和视觉导航等。文本检测的主要目的是定位文本行或字符在图像中的位置，而文本识别是将带文本行图像转录成字符串即识别其内容。相较于通用目标检测和识别来说，文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，因此，文本的精准定位和准确识别既十分重要又具备挑战。

自然场景文字识别是在包含文字的图片中识别出字符序列的过程。它具有图片背景复杂、光照变化、识别输出空间复杂等极大挑战。而且由于文字由数量不固定的字母组成，因此，自然场景文字识别需要从图片中识别长度不固定的序列。目前有两种解决方案，一种是基于自底向上的策略，将识别问题拆分为字符检测、字符识别和字符组合，逐个解决。另一种是基于整体分析的策略，直接对整词整句进行分类识别。

上述两种解决方案虽然有各自在精度或速度上的优势，但是，目前都还难以在精度和速度上取得很好的平衡。

发明内容

本申请实施例提供一种文本识别的方法、装置、设备和存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种文本识别的方法，包括：

使用多个卷积神经网络分别提取待检测图像不同尺度的特征；

对提取的该不同尺度的特征进行融合得到特征向量；

对该特征向量进行卷积操作得到概率矩阵；

在前向过程中对该概率矩阵进行解码得到识别的字符串。

第二方面，本申请实施例提供了一种文本识别的装置，包括：

提取模块，用于使用多个卷积神经网络分别提取待检测图像不同尺度的特征；

融合模块，用于对提取的该不同尺度的特征进行融合得到特征向量；

卷积模块，用于对该特征向量进行卷积操作得到概率矩阵；

解码模块，用于在前向过程中对该概率矩阵进行解码得到识别的字符串。

第三方面，本申请实施例提供了一种文本识别设备，该设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：通过使用多个卷积神经网络分别提取待检测图像不同尺度的特征，对提取的所述不同尺度的特征进行融合得到特征向量，对该特征向量进行卷积操作得到概率矩阵，在前向过程中对该概率矩阵进行解码得到识别的字符串，全面提升了识别的速度和精度，有效地兼顾了文本识别的精度和速度的平衡。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司，未经北京世纪好未来教育科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110477187.4/2.html，转载请声明来源钻瓜专利网。

上一篇：测试脚本开发方法及装置
下一篇：双边剪曲轴干油润滑方法、装置、设备及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文本识别的方法、装置、设备和存储介质有效

专利文献下载