[发明专利]一种文本定位方法、装置及电子设备在审
申请号: | 202010623533.0 | 申请日: | 2020-06-30 |
公开(公告)号: | CN113869306A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 韦涛;张宏源 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 定位 方法 装置 电子设备 | ||
本发明公开了一种文本定位方法、装置及电子设备,该方法包括:对待检测图像进行区域划分,获得n个图像区域,n≥2;针对每个所述图像区域,通过文本行检测模型对所述图像区域进行文本识别,若识别出所述图像区域包含文本,对所述图像区域进行文本行上下边界的关键点回归检测,获得文本行上下边界的关键点坐标;基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标,获得所述待检测图像中的文本图像。上述技术方案,通过将文本行检测转换为关键点的检测,简化了检测任务,提高了检测速度和精度。
技术领域
本发明涉及软件技术领域,特别涉及一种文本定位方法、装置及电子设备。
背景技术
扫描笔又名微型扫描仪或手刮式扫描笔,一般的扫描笔其大小只有“折扇”大小或更小,方便携带、便于移动办公。扫描笔主要是用于扫描办公文件、文字、身份证、名片或大型工程图等,更好的满足了现场扫描与现场执法的需求,广泛的应用于各个领域。
其中,文本行检测是扫描笔的一常用功能,要求检测速度快、检测精度高。现有的文本行检测方法中,基于深度学习的文本行检测精度高、支持复杂背景下的文本行检测,但速度较慢,不太适合运行在移动端。如何提高文本行检测的速度和精度成为了当前亟待解决的技术问题。
发明内容
本发明实施例提供一种文本定位方法、装置及电子设备,用于解决现有技术中文本行检测速度和精度较低的技术问题。
本发明实施例提供一种文本定位方法,所述方法包括:
对待检测图像进行区域划分,获得n个图像区域,n≥2;
针对每个所述图像区域,通过文本行检测模型对所述图像区域进行文本识别,若识别出所述图像区域包含文本,对所述图像区域进行文本行上下边界的关键点回归检测,获得文本行上下边界的关键点坐标;
基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标,获得所述待检测图像中的文本图像。
可选的,所述文本行检测模型为轻量化卷积神经网络。
可选的,所述文本行检测模型的训练方法包括:
获得文本行扫描图像;
对所述文本行扫描图像进行区域划分和标记,获得表征每个图像区域是否包含文本的文本区域标识和表征包含文本的图像区域的文本行上下边界的关键点;
基于所述文本行扫描图像、所述文本区域标识及所述关键点获得训练样本;
基于多个所述训练样本对所述文本行检测模型进行模型训练。
可选的,所述基于多个所述训练样本对所述文本行检测模型进行模型训练,包括:
基于多个所述训练样本和角度损失函数对所述文本行检测模型进行模型训练,其中,所述角度损失函数用于约束所述关键点之间的位置关系。
可选的,所述基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标,获得所述待检测图像中的文本图像,包括:
根据n个所述图像区域的文本识别结果,获得所述待检测图像的最左侧文字区域和最右侧文字区域;
根据所述最左侧文字区域、所述最右侧文字区域以及预设长度的图像区域,获得所述文本行的左右边界;
基于所述文本行的左右边界和所述文本行上下边界的关键点坐标,获得所述待检测图像中的文本图像。
本发明实施例还提供一种文本定位装置,所述装置包括:
区域划分单元,用于对待检测图像进行区域划分,获得n个图像区域,n≥2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010623533.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:稀土基润滑脂及其制备方法
- 下一篇:汽车仪表盘检测机给纸机