[发明专利]文字区域的定位方法、装置、终端设备及介质在审

申请号：	201910264868.5	申请日：	2019-04-03
公开（公告）号：	CN110163202A	公开（公告）日：	2019-08-23
发明（设计）人：	黄泽浩;王满	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06K9/32	分类号：	G06K9/32;G06N3/04;G06N3/08
代理公司：	深圳中一专利商标事务所 44237	代理人：	冷仔
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文字区域选定区域目标图像预设区域更新操作类型终端设备状态矩阵矩阵人工智能技术神经网络模型表征目标获取目标矩阵生成决策模型历史操作图像全局逐步缩小像素点自动化图像输出更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文字区域的定位方法，其特征在于，包括：

对目标图像执行预设次数的区域更新操作，将经过所述预设次数的区域更新操作之后的选定区域输出为所述目标图像的所述文字区域；

所述区域更新操作包括：

获取目标图像的选定区域；

根据所述目标图像中各个像素点的特征，确定所述目标图像的全局特征矩阵以及所述选定区域的局部特征矩阵；

将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中，生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵；

获取历史操作矩阵，所述历史操作矩阵用于表征所述选定区域的多个端点已按时间顺序做出的操作类别，将所述全局卷积特征矩阵、所述局部卷积特征矩阵以及所述历史操作矩阵组合成为状态矩阵；

将所述状态矩阵输入预设的决策模型中，输出操作类别，根据所述操作类别对所述历史操作矩阵进行更新，并根据所述操作类别对所述选定区域的多个端点进行调整，以对所述选定区域进行更新。

2.如权利要求1所述的文字区域的定位方法，其特征在于，所述将所述全局特征矩阵以及所述局部特征矩阵分别输入预设的神经网络中，生成所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵，包括：

将全局特征矩阵以及所述局部特征矩阵分别导入预设的卷积神经网络，并从所述卷积神经网络中卷积层编号最大的卷积层开始，每间隔第一预设数量的卷积层编号，提取一个卷积层输出的数据，分别作为全局被选数据以及局部被选数据；

将第二预设数量的全局被选数据以及局部被选数据分别进行全局平均池化，生成所述第二预设数量的全局池化向量以及局部池化向量；

对所述第二预设数量的全局池化向量进行拼接生成总全局池化向量，并对所述第二预设数量的局部池化向量进行拼接生成总局部池化向量；

将所述总全局池化向量以及所述总局部池化向量分别输入所述卷积神经网络的全连接层，输出所述目标图像对应的全局卷积特征矩阵以及所述选定区域对应的局部卷积特征矩阵。

3.如权利要求1所述的文字区域的定位方法，其特征在于，在所述获取目标图像之前，还包括：

获取多组训练数据集合，其中，每组所述训练数据集合中包含用于表征训练图像全局特征的训练全局卷积特征矩阵、用于表征训练图像中一局部区域特征的训练局部卷积特征矩阵、用于表征从所述训练图像中一区域缩小至另一区域需依次执行的操作类别的训练操作记录矩阵以及需继续执行的训练操作类别；

根据所述训练全局卷积特征矩阵、所述训练局部卷积特征矩阵以及所述训练操作记录矩阵，生成训练状态矩阵，并将所述状态矩阵作为所述长短期记忆网络的输入，将所述训练操作类别作为所述长短期记忆网络的输出，对所述长短期记忆网络内的各个学习参数进行调整，以使所述长短期记忆网络满足收敛条件；所述收敛条件为：

其中，θ^*为调整后的所述学习参数；sta为所述训练状态矩阵；atc为所述训练操作类别；p(sta|atc；θ)为当所述学习参数的值为θ时，将训练状态矩阵导入到所述LSTM神经网络，输出结果为所述训练操作类别的概率值；arg max_θ ∑_Stc logp(sta|atc；θ)为所述概率值取最大值时所述学习参数的取值；

将调整后的长短期记忆网络作为所述决策模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910264868.5/1.html，转载请声明来源钻瓜专利网。

上一篇：图像测试方法和装置、存储介质及电子装置
下一篇：字符识别方法、装置、存储介质及计算机设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文字区域的定位方法、装置、终端设备及介质在审

专利文献下载