[发明专利]一种基于多尺度特征提取的文本识别方法有效
| 申请号: | 202110003584.8 | 申请日: | 2021-01-04 |
| 公开(公告)号: | CN112836702B | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 卜佳俊;邓雅卿;顾静军 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V10/26;G06V10/74;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 尺度 特征 提取 文本 识别 方法 | ||
1.一种基于多尺度特征提取的文本识别方法,包括下列步骤:
1)获取可用于训练的大型文本图像数据集,其中包含文本图片及其对应的文本标签;文本图片表示仅含文本内容的图片,可以通过已有的其它文本检测模型定位文本内容,再进行裁剪得到;
2)对数据集中的图片进行训练集和验证集的划分,在文本识别模型上进行多次训练得到最优模型;所述的文本识别模型,其具体网络结构描述如下:
21)首先定义网络结构中的多尺度特征提取基本块;基本块的整体组织结构包括模块①、模块②、模块③、模块④、模块⑤、模块⑥、模块⑦、模块⑧、模块⑨;详细参数描述如下:模块①选用大小为1的卷积核,设置步长为1,填充为0,输出维度为64;模块②选用大小为1的卷积核,设置步长为1,填充为0,输出维度为48;模块③选用大小为5的卷积核,设置步长为1,填充为2,输出维度为64;模块④选用大小为3的卷积核,设置步长为1,填充为1,输出维度为64;模块⑤和模块⑥选用大小为3的卷积核,设置步长为1,填充为1,输出维度为96;模块⑦设定为范围卷积核为3的池化层,设置步长为1,填充为1;模块⑧选用大小为1的卷积核,设置步长为1,填充为1,输出是多尺度特征提取基本块的一个输入参数;模块⑨选用大小为3的卷积核,设置步长为1,填充为0,输出是多尺度特征提取基本块的输入参数;对模块①、③、⑥、⑧的输出,在特征维度上进行拼接得到高维的语义特征,最后通过模块⑨得到最终的输出;
22)利用21)中提到的多尺度特征提取模块,设计文本识别网络特征提取层详述如下:首先在输入层后接入第一个多尺度特征提取模块,指定输出维度为64;然后接入一个模板大小为2的池化层,设置步长为2;然后接入第二个多尺度特征提取模块,指定输出维度为128;然后接入一个模板大小为2的池化层,设置步长为2;然后接入两个多尺度特征提取模块,都指定输出维度为256;然后接入池化层,在宽度和高度方向上分别设定模板大小为1和2,并将步长也设置成对应值,填充分别为0和1;然后接入两个多尺度特征提取模块,都指定输出维度为512;在特征提取阶段的最后接入一个池化层,在宽度和高度方向上分别设定模板大小为2和4,并将步长也设置成对应值,填充分别为0和2;
23)利用22)中提到的文本识别网络特征提取层,设计文本识别模型的总体架构详述如下:在22)所述的特征提取层后,接入两个双向的LSTM网络层,同时设置该网络层的隐层特征维度为256;双向LSTM层的作用在于将图像的视觉特征进行长短期记忆的联系处理,该网络层读取图像按宽度帧切分的特征序列,对不同帧特征之间的联系进行建模,从而将输入的图像特征转化为更高层的语义特征,并根据特征翻译出每个帧内不同字符对应的概率;
3)对步骤2)中定义的文本识别模型,选用CTC损失函数进行训练;该损失函数的主要作用主要在于将LSTM层输出的每个时刻的字符概率进行组合,以此可以将网络的字符概率输出和图像的文本标签进行对齐,从而将网络各层结构组织起来进行训练;其中网络的概率输出有一个特殊字符类对应‘blank’,根据该类字符可以将网络的概率输出以不同的路径组合方式对齐真实文本标签;比如‘spe[blank]eed’和‘spee[blank]ed’都可以转录成‘speed’单词;因此,最终网络输出当前单词的概率,是对所有可以转化为该单词的路径概率进行求和;计算CTC损失的主要步骤详述如下:
单条路径的概率为每个时刻对应字符的概率求和,如下公式所示:
其中s表示网络对应的输入,而w表示文本识别模型的输出序列,wt表示时刻t对应w中第t个字符的概率;最后,对应的单词概率为所有可以转录为该单词的路径概率和,表示为以下公式:
其中l表示目标文本序列,根据以上概率公式可求得对应的网络损失函数设定为概率的负对数,表示为以下公式:
L=-ln pr(l|s) (3)
最后利用以上所述损失函数,每次读取batch张图片,同时将读取的图片缩放到宽度为100像素,高度为32像素的大小,对网络进行训练;
4)将以上步骤训练的模型应用到文本图像识别场景中,对文本图像的内容进行识别;对含有多行文本的图片可以选取现有文本检测模型对图像中的文本进行定位,裁剪出含有文本内容的部分图片,再使用本发明的文本识别模型对文本内容进行识别。
2.如权利要求1所述的一种基于多尺度特征提取的文本识别方法,其特征在于:还包括步骤5)检索图像,具体包括:用户通过输入单个关键词,和图像中的文本内容进行匹配;图像检索任务使用预训练的NLP模型,该模型提取关键词和文本单词的高维特征;采用预训练的NLP模型分别提取用户输入关键词的语义特征和图像中识别出的所有单词的语义特征,再通过相似度度量方式如余弦相似度的评估方法,计算用户输入关键词和所有图像中的文本单词的相似度平均值,该值对应关键词和图像之间的匹配程度;该相似度平均值可直接用于对图像集合中的图像进行匹配排序,选取和关键词最为接近的K张图像;也可用于和基于内容的图像检索方法进行加权结合,作为相似度匹配的其中一个因素,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110003584.8/1.html,转载请声明来源钻瓜专利网。





