[发明专利]一种基于深度学习优化网络的图文识别方法及系统在审

申请号：	202011178476.6	申请日：	2020-10-29
公开（公告）号：	CN112348024A	公开（公告）日：	2021-02-09
发明（设计）人：	戴亦斌	申请（专利权）人：	北京信工博特智能科技有限公司
主分类号：	G06K9/34	分类号：	G06K9/34;G06K9/62;G06N3/08
代理公司：	天津市鼎和专利商标代理有限公司 12101	代理人：	蒙建军
地址：	100089 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习优化网络图文识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度学习优化网络的图文识别方法及系统，属于光学字符识别技术领域，其特征在于：至少包括如下步骤：步骤一：通过深度学习目标检测技术，识别出单帧图像中的物体；步骤二：通过抠图模型和对齐模型，将所述物体抠出图片，并对齐；步骤三：将所述图片整块进行OCR识别；步骤四：将OCR识别得到的文字识别结果送入基于深度学习自然语言处理建立的NLP校正模型进行校正，最终输出文字识别结果。本发明借助深度学习目标检测技术，通过建立不精确文本校正模型，能快速识别整块文字的照片、视频加工工艺，它能将整幅照片或整帧视频中的整块文字块标记出来，从而节省OCR处理的系统资源，大大提高文字识别效率。

技术领域

本发明属于光学字符识别技术领域，尤其涉及一种基于深度学习优化网络的图文识别方法及系统。

背景技术

众所周知，OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

请参阅图1，传统的OCR识别技术，通常会先找出单个文字块，而单个文字块通常十分众多，很多小块进行拼接，这导致系统资源的极大浪费，同时使得文字识别效率大大降低。

发明内容

针对现有技术存在的问题，本发明提出了一种基于深度学习优化网络的图文识别方法及系统，借助深度学习目标检测技术，通过建立不精确文本校正模型，能快速识别整块文字的照片、视频加工工艺，它能将整幅照片或整帧视频中的整块文字块标记出来，从而节省OCR处理的系统资源，大大提高文字识别效率。

本发明的目的之一在于提供一种基于深度学习优化网络的图文识别方法，包括如下步骤：

步骤一：通过深度学习目标检测技术，识别出单帧图像中的物体；

步骤二：通过抠图模型和对齐模型，将所述物体抠出图片，并对齐；

步骤三：将所述图片整块进行OCR识别；

步骤四：将OCR识别得到的文字识别结果送入基于深度学习自然语言处理建立的NLP校正模型进行校正，最终输出文字识别结果。

优选地，建立基于深度学习自然语言处理的NLP校正模型具体步骤为：

首先，利用前期积累的语料库进行进行深度人工神经网络的初始化；

然后，利用整理好的整块进行OCR识别的识别过程信息、NLP人工校正的输入文本的错误信息、校正过程记录相关信息，以及作为数据集输入对齐的目标物体信息、精确度不高的文本进行训练，通过合理设置的损失函数对深度人工神经网络进行权值调整。

优选地，所述单帧图像为照片集终的单张图片或视频中的单帧图片。