[发明专利]一种基于卷积注意力网络的自然场景文本识别方法有效

申请号：	201810437763.0	申请日：	2018-05-09
公开（公告）号：	CN108615036B	公开（公告）日：	2021-10-01
发明（设计）人：	谢洪涛;张勇东	申请（专利权）人：	中国科学技术大学
主分类号：	G06K9/32	分类号：	G06K9/32;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京凯特来知识产权代理有限公司 11260	代理人：	郑立明;郑哲
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于卷积注意力网络的自然场景文本识别方法，包括：利用二维卷积CNN作为编码器，提取输入图像的高层语义特征，并输出相应的特征图至解码器；利用一维卷积CNN作为解码器，结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型，产生对应于输入图像的解码字符序列。该方法对于长度为n的序列，使用卷积核为s的CNN建模字符序列，仅需O(n/s)次操作即可得到长期依赖的表达，极大的降低了算法复杂度；此外，由于卷积操作的特征，CNN相比于RNN能够更好并行化，从而发挥GPU等资源的优势，更重要的是，通过叠加卷积层的方式得到的深层模型，可以提高更高层次的抽象表达，从而提高模型的准确率。
搜索关键词：	一种基于卷积注意力网络自然场景文本识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于卷积注意力网络的自然场景文本识别方法，其特征在于，包括：利用二维卷积CNN作为编码器，提取输入图像的高层语义特征，并输出相应的特征图至解码器；利用一维卷积CNN作为解码器，结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型，产生对应于输入图像的解码字符序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810437763.0/，转载请声明来源钻瓜专利网。

上一篇：基于图像识别的中小土石坝安全信息采集系统
下一篇：基于深度学习的可控胶囊内镜操作实时辅助系统及操作方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于卷积注意力网络的自然场景文本识别方法有效

专利文献下载