[发明专利]文本识别方法、装置、设备和计算机可读介质有效

专利信息
申请号: 201910689053.1 申请日: 2019-07-29
公开(公告)号: CN112307820B 公开(公告)日: 2022-03-22
发明(设计)人: 潘能超 申请(专利权)人: 北京易真学思教育科技有限公司
主分类号: G06V30/19 分类号: G06V30/19;G06K9/62
代理公司: 北京合智同创知识产权代理有限公司 11545 代理人: 李杰
地址: 100041 北京市石景山区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 识别 方法 装置 设备 计算机 可读 介质
【说明书】:

本申请实施例提供了一种文本识别方法、装置、设备和计算机可读介质。该方法包括:通过预先训练好的第一文本识别模型对待识别文本进行处理得到第一概率矩阵;根据第一概率矩阵确定第一识别结果;确定第一识别结果中中文字符的占比以及是否存在特殊字符;若中文字符的占比不小于预设阈值或存在特殊字符,将第一识别结果作为最终识别结果;若中文字符的占比小于预设阈值且不存在特殊字符,通过预先训练好的第二文本识别模型对待识别文本进行处理得到第二概率矩阵,根据第一概率矩阵和第二概率矩阵确定最终识别结果。通过对得到的概率矩阵进行处理以得到最终识别结果,提高对待识别文本的识别精度,实现对不同类别数据识别时具有良好的识别效果。

技术领域

本申请实施例涉及图像处理技术领域,尤其涉及一种文本识别方法、装置、设备和计算机可读介质。

背景技术

OCR(Optical Character Recognition,光学字符识别)是电子设备通过对字符进行检测,确定其形状,然后通过字符识别方法将形状翻译成计算机文字的过程。随着平台式扫描仪的广泛应用,以及我国信息自动化和办公自动化的普及,大大推动了OCR技术的发展,在很多领域及场景OCR技术得到了广泛的应用,如车牌识别、支票识别、图书朗读等。

目前,常用的识别方法是模板匹配法,其是将输入的文字与给定的各类别的标准文字(模板)进行相关匹配,计算输入文本与各模板之间的相似程度。该方法在被识别类别数增加时,文字模板的数量也随之增加,极大降低了识别的正确率,致使识别的精度不高,识别效果较差。

发明内容

有鉴于此,本发明实施例所解决的技术问题之一在于提供一种文本识别方法、装置、设备和计算机可读介质,通过利用不同的文本识别模型对待识别文本进行处理,提高对待识别文本的识别精度,以实现对不同类别字符识别时达到很好的识别效果。

为达上述目的及其他相关目的,本申请实施例提供一种文本识别方法,包括:通过预先训练好的第一文本识别模型对待识别文本进行处理,得到第一概率矩阵;根据所述第一概率矩阵,确定第一识别结果;确定所述第一识别结果中中文字符的占比,以及确定所述第一识别结果中是否存在特殊字符;若所述中文字符的占比不小于预设阈值或者所述第一识别结果中存在特殊字符,将所述第一识别结果作为最终识别结果;若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符,通过预先训练好的第二文本识别模型对所述待识别文本进行处理,得到第二概率矩阵,根据所述第一概率矩阵和所述第二概率矩阵,确定最终识别结果。

可选地,在本申请的任一实施例中,所述通过预先训练好的第一文本识别模型对待识别文本进行处理,得到第一概率矩阵包括:通过预先训练好的第一文本识别模型对所述待识别文本进行识别,得到第一概率矩阵。

可选地,在本申请的任一实施例中,所述根据所述第一概率矩阵,确定第一识别结果包括:对所述第一概率矩阵进行每帧最大值处理,得到所述第一识别结果。

可选地,在本申请的任一实施例中,所述对所述第一概率矩阵进行每帧最大值处理,得到所述第一识别结果包括:针对每一帧,选取所述第一概率矩阵中对应该帧的概率值最大的字符为识别字符;对选取的各帧对应的识别字符进行合并,得到所述第一识别结果。

可选地,在本申请的任一实施例中,所述确定所述第一识别结果中中文字符的占比包括:分别对所述第一识别结果中的所述中文字符的数量以及英文字符的数量进行统计;根据所述中文字符的数量以及所述英文字符的数量计算所述第一识别结果中所述中文字符的占比。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易真学思教育科技有限公司,未经北京易真学思教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910689053.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top