[发明专利]字段定位与分类方法、文本图像识别方法、装置、设备在审
申请号: | 202110583236.2 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113449716A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 丁拥科 | 申请(专利权)人: | 众安在线财产保险股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 杨明莉 |
地址: | 200001 上海市黄*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字段 定位 分类 方法 文本 图像 识别 装置 设备 | ||
本申请涉及图像处理技术领域,特别是涉及一种字段定位与分类方法、文本图像识别方法、装置、设备。所述字段定位与分类方法包括:获取待识别文本图像;对待识别文本图像进行识别,生成待识别文本图像的真值标签图;基于真值标签图,确定待识别文本图像中的各文本连通域;根据各文本连通域以及真值标签图,确定待识别文本图像中各文本字段的位置信息以及类别信息。采用本方法能够提升文本图像识别准确性。
技术领域
本申请涉及图像处理技术领域,特别是涉及一种字段定位与分类方法、文本图像识别方法、装置、设备。
背景技术
随着移动互联网和人工智能(Artificial Intelligence,AI)技术的快速发展,文档和卡证电子化采集和处理趋势日益明显,越来越多的文档(如档案材料、医疗病历等)或卡证(如身份证、银行卡等)通过智能手机app(Application)拍摄采集后,送入后台进行自动化处理,例如,通过光学文字识别(Optical Character Recognition,OCR)获得文本信息,通过自然语言处理(Natural Language Processing,NLP)进行实体抽取或语义分析。
在传统方式中,在获取到待识别文本图像之后,通常是直接对其进行识别,并生成对应的识别结果。
对于倾斜图像,得到的识别准确率较低,影响用户体验。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升文本图像识别准确性的字段定位与分类方法、文本图像识别方法、装置、设备。
一种字段定位与分类方法,所述字段定位与分类方法包括:
获取待识别文本图像;
对待识别文本图像进行识别,生成待识别文本图像的真值标签图;
基于真值标签图,确定待识别文本图像中的各文本连通域;
根据各文本连通域以及真值标签图,确定待识别文本图像中各文本字段的位置信息以及类别信息。
在其中一个实施例中,对待识别文本图像进行识别,生成待识别文本图像的真值标签图,包括:
对待识别文本图像进行标签转换,得到对应待识别文本图像的标签矩阵,标签矩阵中各矩阵元素与待识别文本图像的各像素点相对应;
基于标签矩阵中各矩阵元素的元素值,确定待识别文本图像中各像素点的标签类别;
基于各标签类别,得到待识别文本图像的真值标签图。
在其中一个实施例中,基于真值标签图,确定待识别文本图像中的各文本连通域,包括:
基于真值标签图,生成对应各标签类别的二值分割图;
基于各二值分割图,确定像素值相同的像素点构成同一连通域,得到对应的各文本连通域。
在其中一个实施例中,对待识别文本图像进行识别,生成待识别文本图像的真值标签图为通过预先训练的识别模型进行的,识别模型的训练方式包括:
获取训练图像集;
对各训练图像集中各训练图像进行字段类型的标注;
基于标注的结果,生成对应各训练图像的标签矩阵;
构建初始识别模型;
将各标签矩阵输入初始识别模型中,对初始识别模型进行训练,得到训练后的识别模型。
在其中一个实施例中,基于标注的结果,生成对应各训练图像的标签矩阵,包括:
获取各训练图像的图像尺寸;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于众安在线财产保险股份有限公司,未经众安在线财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110583236.2/2.html,转载请声明来源钻瓜专利网。