[发明专利]文字区域的定位方法、装置、终端设备及介质在审
申请号: | 201910264868.5 | 申请日: | 2019-04-03 |
公开(公告)号: | CN110163202A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 黄泽浩;王满 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06N3/04;G06N3/08 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 冷仔 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字区域 选定区域 目标图像 预设 区域更新 操作类型 终端设备 状态矩阵 矩阵 人工智能技术 神经网络模型 表征目标 获取目标 矩阵生成 决策模型 历史操作 图像全局 逐步缩小 像素点 自动化 图像 输出 更新 | ||
1.一种文字区域的定位方法,其特征在于,包括:
对目标图像执行预设次数的区域更新操作,将经过所述预设次数的区域更新操作之后的选定区域输出为所述目标图像的所述文字区域;
所述区域更新操作包括:
获取目标图像的选定区域;
根据所述目标图像中各个像素点的特征,确定所述目标图像的全局特征矩阵以及所述选定区域的局部特征矩阵;
将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中,生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵;
获取历史操作矩阵,所述历史操作矩阵用于表征所述选定区域的多个端点已按时间顺序做出的操作类别,将所述全局卷积特征矩阵、所述局部卷积特征矩阵以及所述历史操作矩阵组合成为状态矩阵;
将所述状态矩阵输入预设的决策模型中,输出操作类别,根据所述操作类别对所述历史操作矩阵进行更新,并根据所述操作类别对所述选定区域的多个端点进行调整,以对所述选定区域进行更新。
2.如权利要求1所述的文字区域的定位方法,其特征在于,所述将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中,生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵,包括:
将全局特征矩阵以及所述局部特征矩阵分别导入预设的卷积神经网络,并从所述卷积神经网络中卷积层编号最大的卷积层开始,每间隔第一预设数量的卷积层编号,提取一个卷积层输出的数据,分别作为全局被选数据以及局部被选数据;
将第二预设数量的全局被选数据以及局部被选数据分别进行全局平均池化,生成所述第二预设数量的全局池化向量以及局部池化向量;
对所述第二预设数量的全局池化向量进行拼接生成总全局池化向量,并对所述第二预设数量的局部池化向量进行拼接生成总局部池化向量;
将所述总全局池化向量以及所述总局部池化向量分别输入所述卷积神经网络的全连接层,输出所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵。
3.如权利要求1所述的文字区域的定位方法,其特征在于,在所述获取目标图像之前,还包括:
获取多组训练数据集合,其中,每组所述训练数据集合中包含用于表征训练图像全局特征的训练全局卷积特征矩阵、用于表征训练图像中一局部区域特征的训练局部卷积特征矩阵、用于表征从所述训练图像中一区域缩小至另一区域需依次执行的操作类别的训练操作记录矩阵以及需继续执行的训练操作类别;
根据所述训练全局卷积特征矩阵、所述训练局部卷积特征矩阵以及所述训练操作记录矩阵,生成训练状态矩阵,并将所述状态矩阵作为所述长短期记忆网络的输入,将所述训练操作类别作为所述长短期记忆网络的输出,对所述长短期记忆网络内的各个学习参数进行调整,以使所述长短期记忆网络满足收敛条件;所述收敛条件为:
其中,θ*为调整后的所述学习参数;sta为所述训练状态矩阵;atc为所述训练操作类别;p(sta|atc;θ)为当所述学习参数的值为θ时,将训练状态矩阵导入到所述LSTM神经网络,输出结果为所述训练操作类别的概率值;arg maxθ ∑Stc logp(sta|atc;θ)为所述概率值取最大值时所述学习参数的取值;
将调整后的长短期记忆网络作为所述决策模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910264868.5/1.html,转载请声明来源钻瓜专利网。