[发明专利]一种基于新型网络的票据文本识别方法在审
| 申请号: | 202010792740.9 | 申请日: | 2020-08-10 |
| 公开(公告)号: | CN111881880A | 公开(公告)日: | 2020-11-03 |
| 发明(设计)人: | 陈俊霞;严京旗;周审章;卞志强;张成栋 | 申请(专利权)人: | 晶璞(上海)人工智能科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 北京鹏帆慧博知识产权代理有限公司 11903 | 代理人: | 祝辽原 |
| 地址: | 200333 上海市普*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 新型 网络 票据 文本 识别 方法 | ||
本发明涉及计算机视觉领域文本识别技术,尤其为一种基于新型网络的票据文本识别方法,其具体步骤如下:步骤110,获取票据的图像数据;步骤120,文本识别数据集的创建;使用文本检测模块得到的文本行图像数据,对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像名中,按照一定比例将数据分成训练集,测试集和验证集;本发明通过设计与常用的文本识别方法相比,本发明借助深度学习中特征提取及图像矫正算法,其泛化性更强,鲁棒性更优,能有效地应对恶劣情况如票据的畸变、透视、打印体墨迹断裂及脏污等情况,通过在不同层级添加BN层,从而使识别的精确度更高。
技术领域
本发明涉及计算机视觉领域文本识别技术,具体设计一种票据文本识别的方法,应用场景为医疗票据的文本识别。
背景技术
OCR识别技术已经成为将纸质文档转换为电子文档的主要手段,该技术能大大便利人们的信息录入工作,将检测模块得到的文本行图像数据归一化到固定高度之后,需要使用通用文字识别技术,将图像对应的文本内容识别出来目前文本行图像数据由于受光照、几何变换、背景、字体、风格、分辨率等的影响,形状纹理尺寸变化多端,对识别工作提出了挑战,因此不能有效地应对恶劣情况如票据的畸变、透视、打印体墨迹断裂及脏污等情况,同时使用时识别的精确度低。
综上所述,本发明通过设计一种票据文本识别的方法来解决存在的问题。
发明内容
本发明的目的在于提供一种基于新型网络的票据文本识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于新型网络的票据文本识别方法,其具体步骤如下:
步骤110,获取票据的图像数据;
步骤120,文本识别数据集的创建;使用文本检测模块得到的文本行图像数据,对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像名中,按照一定比例将数据分成训练集,测试集和验证集;
步骤130,构建神经网络模型结构;在步骤120之后,添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像,以resnet为基础特征提取网络,修改resnet34的模型结构,添加多个BN层。每层卷积层之后都添加了BN层进行归一化处理;
步骤140,模型训练;在步骤130之后,为加速模型初期训练速度,采用Adadelta优化器,按设定的间隔调整学习率,使用验证集上的损失函数作为调整学习率等参数的指标;
步骤150,模型部署及预测推理;导出模型,载入模型和测试数据,进行测试分析,将精度最高的模型部署到实际场景中进行票据的文本识别;
进一步的,所述步骤110获取图像数据的方法为以下五种方法之一:
方法1是用智能手机拍摄得到的图像;
方法2是用扫描仪得到的图像;
方法3是用数码或单反相机拍摄得到的图像;
方法4是打开一个预先存在的包含图像数据的文件夹,批处理该文件夹内所有的图像文件;
方法5是打开一个预先存在的图像文件,读取该文件中的图像数据。
进一步的,所述步骤120文本识别数据集的创建,包括如下步骤:
步骤210,使用文本检测模块得到的文本行图像数据;对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像的名称中;
进一步的,所述步骤130构建神经网络模型结构,具体包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶璞(上海)人工智能科技有限公司,未经晶璞(上海)人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010792740.9/2.html,转载请声明来源钻瓜专利网。





