[发明专利]一种字符版面确定方法及装置有效
申请号: | 201710799346.6 | 申请日: | 2017-09-07 |
公开(公告)号: | CN109472257B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 姜帆;郝志会 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06N3/04 |
代理公司: | 北京领科知识产权代理事务所(特殊普通合伙) 11690 | 代理人: | 张丹 |
地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字符 版面 确定 方法 装置 | ||
本申请公开了一种字符版面确定方法及装置,方法包括:将待测图像输入预先训练的深度全卷积神经网络模型,得到深度全卷积神经网络模型输出的组成字符行的像素点区域和组成字符行中轴的像素点区域;对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符;根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴;同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。在本申请中,深度全卷积神经网络模型针对不同图像均能够达到很好的字符版面识别准确性。
技术领域
本申请涉及目标检测技术领域,更具体地说,涉及一种字符版面确定方法及装置。
背景技术
随着计算机技术和多媒体的飞速发展,越来越多的信息以图像的形式传播,图像中通常存在大量包含重要信息的描述性文字。为了获取图像中的重要信息,需要对图像中的文字进行识别及语义分析。而对图像中的文字进行识别及语义分析的前提是对图像中文字版面进行分析。
目前,文字版面分析方法往往仅分析具有一定文档结构的文档图像(如扫描文档图像、表单图像、信件图像、名片图像、报刊杂志等)的文本行区域,来确定文字版面。但对于文字版面结构本身复杂且由于拍摄时存在光照不均、背景复杂、视角畸变等问题,造成的文档结构不清楚的自然场景图像,采用现有方法进行文字版面分析的准确性低。
发明内容
有鉴于此,本申请提供了一种字符版面确定方法及装置,用于解决现有文字版面分析准确性低的问题。
为了实现上述目的,现提出的方案如下:
一种字符版面确定方法,包括:
将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域;所述深度全卷积神经网络模型为预先利用标注有字符行及其中轴的真实区域的训练图像进行训练得到;
对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置;
根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴;
同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
优选的,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤之前还包括:
采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线。
优选的,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤包括:
针对各目标字符,确定目标字符所属的字符行区域中包含的中轴的条数;
若仅有一条,则将该唯一一条中轴作为所述目标字符对应的中轴;
若至少包含两条,则计算所述目标字符与包含的每一条中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
优选的,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤包括:
针对各目标字符,计算所述目标字符与各中轴的最短距离值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710799346.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种东北虎动态踪迹监测系统及方法
- 下一篇:跟踪方法及装置