[发明专利]一种文本识别方法及其相关设备在审
申请号: | 202111575226.0 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114241467A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 张家鑫;黄灿 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/30;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 冯柳伟 |
地址: | 101299 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 方法 及其 相关 设备 | ||
本申请公开了一种文本识别方法及其相关设备,该方法包括:在获取到携带有噪声信息的待识别图像之后,将该待识别图像输入预先构建的文本识别模型,得到该文本识别模型输出的该待识别图像的文本识别结果。其中,文本识别模型包括特征提取网络、循环神经网络和转录层。特征提取网络用于提取待识别图像的图像特征、以及抑制该待识别图像携带的噪声信息。可见,因特征提取网络具有图像噪声抑制功能,使得利用特征提取网络,针对该待识别图像提取所得的图像特征几乎不携带噪声信息,如此能够有效地降低该待识别图像携带的噪声信息对文本识别过程所造成的不良影响,从而能够有效地提高该待识别图像的文本识别结果的准确性,进而有利于提高文本识别效果。
技术领域
本申请涉及图像处理技术领域,尤其涉及一种文本识别方法及其相关设备。
背景技术
文本识别技术是一种典型的图像处理技术;而且该文本识别技术的应用范围十分广泛。其中,文本识别技术用于针对一个图像数据中字符信息进行识别处理。
然而,因一些文本识别技术存在缺陷,导致这些文本识别技术针对一些图像数据(例如,携带有噪声信息的图像数据等)的文本识别效果较差。
发明内容
为了解决上述技术问题,本申请提供了一种文本识别方法及其相关设备,能够提高文本识别效果。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种文本识别方法,所述方法包括:
获取待识别图像;
将所述待识别图像输入预先构建的文本识别模型,得到所述文本识别模型输出的所述待识别图像的文本识别结果;其中,所述文本识别模型包括特征提取网络、循环神经网络RNN和转录层CTC;所述特征提取网络用于提取所述待识别图像的图像特征,且所述特征提取网络还用于抑制所述待识别图像携带的噪声信息。
在一种可能的实施方式中,所述特征提取网络包括图像特征提取子网络和图像噪声抑制子网络;所述图像特征提取子网络用于提取所述待识别图像的图像特征;所述图像噪声抑制子网络用于抑制所述待识别图像携带的噪声信息。
在一种可能的实施方式中,所述图像噪声抑制子网络包括空间噪声抑制模块和/或通道噪声抑制模块;其中,所述空间噪声抑制模块用于抑制所述待识别图像携带的背景噪声;所述通道噪声抑制模块用于实现通道注意力机制。
在一种可能的实施方式中,所述图像噪声抑制子网络包括空间噪声抑制模块;
所述文本识别结果的确定过程,包括:
将所述待识别图像输入所述图像特征提取子网络,得到所述图像特征提取子网络输出的待使用图像特征;
将所述待使用图像特征输入所述空间噪声抑制模块,得到所述空间噪声抑制模块输出的待处理图像特征;
根据所述待处理图像特征、所述RNN和所述CTC,确定所述待识别图像的文本识别结果。
在一种可能的实施方式中,所述空间噪声抑制模块包括空间权重确定子模块和特征加权融合子模块;
所述待处理图像特征的确定过程,包括:
将所述待使用图像特征输入所述空间权重确定子模块,得到所述空间权重确定子模块输出的待使用空间权重;
将所述待使用图像特征和所述待使用空间权重输入所述特征加权融合子模块,得到所述特征加权融合子模块输出的待处理图像特征。
在一种可能的实施方式中,所述图像特征提取子网络包括N个特征提取模块;所述图像噪声抑制子网络包括N个通道噪声抑制模块;
第n个通道噪声抑制模块的输入数据包括第n个特征提取模块的输出数据;其中,n为正整数,n≤N,N为正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111575226.0/2.html,转载请声明来源钻瓜专利网。