[发明专利]基于多维关联时序分类神经网络的端到端多序列文本识别方法有效
| 申请号: | 201911321107.5 | 申请日: | 2019-12-20 | 
| 公开(公告)号: | CN111144469B | 公开(公告)日: | 2023-05-02 | 
| 发明(设计)人: | 周水庚;许振龙;程战战;白帆 | 申请(专利权)人: | 复旦大学 | 
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06F18/214;G06F18/241;G06V30/40;G06V10/82;G06N3/0464 | 
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 | 
| 地址: | 200433 *** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 多维 关联 时序 分类 神经网络 端到端多 序列 文本 识别 方法 | ||
1.一种基于多维关联时序分类神经网络的端到端多序列文本识别方法,多序列文本有且仅有含有多个文本序列的图片,需要输出所有的文本序列;其特征在于,
首先,构建一个编码器,一个多维关联时序分类神经网络,一个解码器;其中:
(1)所述编码器,由多层神经网络构成,为带有池化操作的卷积神经网络,使用非线性激活函数;其功能是将图片从原始RGB颜色空间映射到高维特征子空间;
(2)所述多维关联时序分类神经网络,由特征整合模块和关联时序分类模块组成;特征整合模块对编码器输出的高维空间特征进行维度变换,以适配多维关联时序分类模块的要求;关联时序分类模块用于捕获特征空间中多个文本序列的对应表示,并对捕获的内容利用序列上下文信息对其进行分类,得到最大概率类别图;
(3)所述解码器,由最大概率类别图映射模块构成,是将最大概率类别图映射到多文本序列上;该模块专注于学习特定任务的映射方式;
其工作流程为:编码器将数据从原始的图像映射到高维的特征空间,在高维的特征空间上,利用多维关联时序分类神经网络来学习图片中多个文本序列的空间时序信息;多维关联时序分类模块捕获特征空间中文本序列的对应表示,利用序列内部的上下文特征对上述表示逐位分类,得到最大概率类别图;解码器从最大概率类别图中解码出多个文本序列。
2.根据权利要求1所述的基于多维关联时序分类神经网络的端到端多序列文本识别方法,其特征在于法具体步骤如下:
步骤1,对图片数据集中的标注文件进行类别统计与分析,确定最大类别参数,并对数据集中的每张图片进行数据预处理,并将这些数据划分为训练集和测试集;
步骤2,使用随机排序算法对训练集中的所有样本进行处理,每次选择一批样本将其图像信息与多文本序列标注信息一同输入到编码器进行编码;
步骤3,对于编码得到的高维空间特征,利用关联时序分类神经网络依次对多个文本序列进行捕获;捕获过程是将高维特征放在二维时序空间中,逐步计算每个时序点匹文本序列某个位置的概率;在单次捕获过程中,利用已捕获的序列上下文信息对当前时序点进行分类,得到当前时序点的类别概率分布;
步骤4,单次捕获过程结束后,得到二维时序空间中所有时序点的类别概率分布,根据此类别分布设计模型,其优化目标函数如下:
其中,是训练集,X是编码器提取样本图片信息得到的三维特征向量,Z={l1,l2,...,lN}是样本的文本序列集合;p(li|X)表示给定输入特征X时预测序列为li的条件概率;对该优化目标函数计算其关于模型参数X的导数,并进行反向传播更新参数;参数更新使用ADADELTA算法;
步骤5,重复步骤2、步骤3、步骤4,直到目标函数收敛,得到最终训练完毕的模型;
步骤6,利用训练完毕得到的模型在测试集进行图片多序列文本识别;在测试过程中需要输出具体的文本序列,具体如下:经过步骤2、步骤3,得到每个时序位置的类别概率分布;取分布中概率最大值作为每个时序点的类别,得到每个时序点的类别,即最大概率类别图;
步骤7,将计算出的最大概率类别图输入解码器中,解码器根据当前任务的映射模式将其映射到一个序列集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911321107.5/1.html,转载请声明来源钻瓜专利网。





