[发明专利]深度学习与景区知识图谱融合的手写诗词识别方法在审
| 申请号: | 202110663733.3 | 申请日: | 2021-06-16 |
| 公开(公告)号: | CN113609892A | 公开(公告)日: | 2021-11-05 |
| 发明(设计)人: | 何坚;白佳豪 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/02;G06T5/00;G06T7/11;G06F40/30;G06F40/289;G06F16/36 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 深度 学习 景区 知识 图谱 融合 手写 诗词 识别 方法 | ||
1.深度学习与景区知识图谱融合的手写诗词识别方法,其特征在于,包括以下步骤:
步骤1、获取需要识别的景区手写诗词文本图像以及该图像的相关属性信息,包括图像拍摄地理位置、图像背景纹理、文字方向,并将图像通过空间域增强算法减弱图像中的噪声,使原图像与去噪图像的结构相似性指数大于0.9,得到预处理结果;
步骤2、将预处理后的景区手写诗词图像输入基于VGG16的特征提取网络进行诗词文本的特征提取,并且通过诗词文本分类器获得景区图像的手写诗词文本权重序列,同时对分类器进行训练;
步骤3、将提取到的手写诗词文本特征图输入基于FPN的手写诗词检测网络进行融合,得到手写诗词文本的单字符高斯热力图,进而经过多字符文本框链接算法得到景区手写诗词图像的文本区域位置信息;
步骤4、根据提取到的文本图像位置信息对景区手写诗词图像进行区域裁剪,并依次将裁剪区域输入基于ACE的手写诗词识别网络进行手写诗词文本的Encoder-Decoder处理,得到景区手写诗词图像的识别结果;
步骤5、将景区手写诗词图像的相关属性信息输入到景区知识图谱中经过图搜索得到搜索知识结果集,利用步骤4得到的识别结果与搜索知识结果集通过景区手写诗词匹配算法,得出最终的景区手写诗词图像的文本识别结果。
2.根据权利要求1所述的深度学习与景区知识图谱融合的手写诗词识别方法,其特征在于,
(1)基于FPN的景区手写诗词的检测技术
一共分为3个部分,分别为:手写诗词空间特征提取网络、字符关键点标定算法以及多字符文本框链接算法;首先将景区手写诗词图像输入到手写诗词空间特征提取网络对手写诗词文本特征进行提取;然后将提取到的诗词文本特征通过字符关键点标定算法对单字符关键点进行标记;最后将标记好的单字符关键点经过多字符文本框链接算法处理后得出景区手写诗词文本区域坐标信息,将该信息作为输入传递给景区手写诗词图像文本字符识别模块;其详细描述如下:
通过VGG16对景区手写诗词图像进行特征提取,得到景区手写诗词图像的诗词文本特征图,多特征模块融合的骨干网络使用的是特征金字塔网络;采用了7层金字塔网络,层与层之间相互连接,促进特征复用;在的金字塔网络中,利用一个自下而上的路径和一个自上而下的路径水平配对进行数据传输;1)自下而上通路:是指数据的向上流动;每层均包含卷积层、池化层、激活函数层以及循环层;该通路得到7个多尺度特征图,标记为{c1,c2,c3,c4,c5,c6,c7},不同特征图记录不同层次的文字特征,低层特征反映较浅层次的诗词文字特征边界,高层特征则反映较深层次的诗词文字特征;
2)自上而下通路:是指数据的向下流动,通过对特征图进行上采样,前面几层的输出作为当前层的输入,同时,增加可变形卷积模块Def-Incept,提取部分变形文本的特征,然后生成多层特征图{p1,p2,p3,p4,p5,p6,p7},最后对特征图进行一次卷积运算,减少了参数数量,消除了变形带来的混杂效应;以下公式(1)展示了特征提取的过程;
式中,Conv表示卷积操作,表示特征融合,UpSample表示上采样操作,Def-Incept表示可变形卷积操作;将本操作的输出信息通过高斯核函数处理,得到图像文本的字符关键节点的高斯热力图;
多字符文本框链接算法是将得到图像文本的字符关键节点的高斯热力图作为前提条件,通过计算字符关键节点之间的链接关系得出最终的景区手写诗词图像文本检测框;以下将对多字符文本框链接算法的计算过程进行详细介绍;
首先,通过对景区手写诗词图像文本中的每个字符通过字符关键点高斯热力图进行分析计算,得出每个字符的高斯热力图的最大直径,以最大直径为边长画出正方形框,用来标记单个字符的文本框位置;其次,选取单字符文本框的对角线长度的一半作为向外辐射圆的半径r的初始值,并根据输入图像的最大边长设定半径r的最大值max;然后,以步长为的幅度不断增大辐射圆的半径,在用户输入的文字方向进行探索,若遇到另一个字符文本框则停止,并将本字符文本框与相遇文本框的中心进行链接;若半径r达到最大值则表示文本框链接结束;最后,将链接起来的文本框进行整合,得出最终的景区手写诗词图像文本检测区域位置结果;
(2)基于ACE的景区手写诗词的识别方法
通过使用景区手写诗词的文本识别网络中,首先将景区手写诗词文本检测得到的局部文本区域经过图像归一化处理,使数据更加规范;然后将处理后的图像数据输入到手写诗词字符特征提取网络对诗词文本特征进行序列化编码;最后将诗词文本特征序列化后的编码通过字符识别器进行解码得到初步的景区手写诗词文本识别结果;其详细描述如下:
对景区手写诗词文本图像进行归一化处理后,将针对处理后的文本图像进行字符特征提取,将以卷积循环神经网络CRNN为主干网络对景区手写诗词图像文本进行特征提取,该字符特征提取网络结构主要由卷积层和循环网络层两部分构成;首先,将归一化处理之后的诗词文本图像输入到卷积层,提取到图像的卷积特征图;然后,将提取到的卷积特征图输入到循环网络层,用于在卷积特征的基础上继续提取文字序列特征,将提取到的特征进行输出;
将采用聚合交叉熵ACE算法对景区手写诗词图像文本的特征序列进行解码,在模型训练的初始阶段,将增益系数设置为1;在之后的训练阶段,则将增益系数设置为该图像中文本的字符个数;
(3)基于知识图谱的诗词矫正技术
针对用户查询诗词描述信息作为搜索条件,利用景区知识图谱进行图搜索,得到搜索结果集C;
其次,将搜索结果集C与景区手写诗词文本图像的初步识别结果x通过分词算法f(·)进行分词后,将得到的搜索结果集关键词矩阵Sn×m以及景区手写诗词文本图像初步识别结果矩阵E1×m,其中n表示搜索结果集中的实体数量,m表示处理后的关键字数量,k表示搜索结果集中实体的索引位置,f(·)表示对文本进行分词的分词函数,C[k]表示搜索结果集中的单个文本,x表示景区手写诗词文本图像的初步识别结果;其计算公式如(2)与(3)所示;
Sk×m=f(C[k]) (2)
E1×m=f(x) (3)
然后,利用产生词向量的分布模型对前文所得到的矩阵中的实体关键字进行计算;其每个实体关键字向量ve的计算公式如(4)所示,其中e表示矩阵中的单个样本,g(·)表示产生词向量的分布模型函数,i表示实体关键字的索引位置,Sn×m[e]表示搜索结果集关键词矩阵中单个样本数据,Sn×m[e][i]表示逐步取搜索结果集关键词矩阵中单个样本的实体关键字数据;
将得到的诗词文本的向量ve经过归一化处理后,得到诗词文本的最终文本向量v,将n个文本向量进行组合生成搜索结果向量集V;其计算公式如(5)所示;
将景区手写诗词文本图像初步识别结果也经过上述处理后,得到最终的景区手写诗词文本图像初步识别结果向量q;
最后,利用景区手写诗词文本图像初步识别结果向量q与搜索结果向量集V中每个实体的文本向量v通过VSM进行计算两个诗词文本向量的相似程度,取景区手写诗词文本图像初步识别结果向量q与搜索结果向量集V中相似度最高的诗词文本向量,其对应的搜索结果集C中的文本Result进行输出,作为景区手写诗词图像文本识别结果;其计算公式如(6)和(7)所示,其中VSM(·)表示向量空间模型计算函数,j表示单个搜索结果向量的索引位置,s1和s2为两个文本,其单词频率分别用at和bt表示,t表示文本单词频率的索引位置;
利用知识推理方法获取与检索结果Result知识节点关系为“关联”的知识节点,三元组表示法可描述为(?,关联,Result),通过知识推理与计算得到相关诗词知识节点信息,实现知识推荐服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110663733.3/1.html,转载请声明来源钻瓜专利网。





