[发明专利]文本检测方法、模型训练方法及对应装置有效
| 申请号: | 202010623505.9 | 申请日: | 2020-06-30 |
| 公开(公告)号: | CN111767867B | 公开(公告)日: | 2022-12-09 |
| 发明(设计)人: | 张发恩;张建伟 | 申请(专利权)人: | 创新奇智(北京)科技有限公司 |
| 主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/19;G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
| 地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 检测 方法 模型 训练 对应 装置 | ||
本申请涉及文本检测技术领域,提供一种文本检测方法、模型训练方法及对应装置。其中,文本检测方法包括:获取待检测图像;将待检测图像输入至预训练的文本检测网络进行处理,获得文本检测网络输出的候选框的位置、文本分数以及连接分数;根据候选框的文本分数从全部的候选框中确定目标候选框;根据目标候选框的连接分数将其与相邻的目标候选框进行连接,并根据连接在一起的目标候选框确定文本行检测框;该文本检测网络包括卷积神经网络、滑动窗口层、长短时记忆网络以及全连接层。该方法使用连接分数连接目标候选框,首先避免了设置大量阈值,其次由于连接分数是文本检测网络学习产生的,从而显著提高了网络的泛化能力,改善了文本检测效果。
技术领域
本发明涉及文本检测技术领域,具体而言,涉及一种文本检测方法、模型训练方法及对应装置。
背景技术
在横向文本检测中,连接文本提议网络(Connectionist Text Proposal Network,简称CTPN)是目前最好的检测模型之一。CTPN在进行文本检测时,首先会生成很多矩形候选框,然后再根据候选框的几何尺寸和位置对候选框进行连接,最后基于连接在一起的候选框形成文本行检测框。在这一过程中,连接候选框时所依据的有关候选框的几何尺寸和位置的阈值都是预先设定好的,难以适应于不同的数据集,导致文本检测效果不佳。
发明内容
本申请实施例的目的在于提供一种文本检测方法、模型训练方法及对应装置,以改善上述技术问题。
为实现上述目的,本申请提供如下技术方案:
第一方面,本申请实施例提供一种文本检测方法,包括:获取待检测图像;将所述待检测图像输入至预训练的文本检测网络进行处理,获得所述文本检测网络输出的候选框的位置、所述候选框的文本分数以及所述候选框的连接分数;其中,所述文本检测网络包括依次连接的卷积神经网络、滑动窗口层、长短时记忆网络以及全连接层;根据所述候选框的文本分数从全部的候选框中确定目标候选框;根据所述目标候选框的连接分数将其与相邻的目标候选框进行连接,并根据连接在一起的目标候选框确定文本行检测框。
在上述方法中使用的文本检测网络其全连接层会输出连接分数,在后续步骤中会基于该连接分数连接目标候选框,而不再依赖于事先设定好的阈值。其好处在于:首先,避免了设置大量阈值,不仅降低了算法复杂度,也减轻了技术人员设定阈值的负担;其次,由于连接分数是文本检测网络学习产生的,而非基于某种预设规则计算的,因此只要文本检测网络基于不同的数据集进行训练,该分数就可以适应于不同的数据集,从而显著提高了网络的泛化能力,改善了文本检测效果。
在第一方面的一种实现方式中,所述候选框经由以所述卷积神经网络输出的特征图中的特征点为中心点的锚框回归后得到,所述根据所述候选框的文本分数从全部的候选框中确定目标候选框,包括:对于所述卷积神经网络输出的特征图中的每个特征点,从以该特征点为中心点的所有锚框回归得到的候选框中选择文本分数最高的候选框作为所述目标候选框。
对于卷积神经网络输出的特征图中的每个特征点,都对应待检测图像中的多个锚框,而每个锚框经过回归都会产生一个候选框,因此在文本检测网络的全连接层之后会输出大量的候选框,如果对所有的候选框都采用连接分数判断其是否需要与相邻的候选框连接,则计算量过大,并且存在大量无效计算。因此在上述实现方式中,首先利用候选框的文本分数对预测出的候选框进行筛选,在每个特征点对应的全部候选框中仅保留一个文本分数最高(即最可能包含文本)的候选框作为目标候选框,然后仅对目标候选框执行连接操作,避免了大量的无效计算,显著降低了文本检测过程中的运算量。
在第一方面的一种实现方式中,根据连接在一起目标候选框确定的文本行检测框有多个,所述方法还包括:利用非极大值抑制算法对多个文本行检测框进行处理,得到最终的文本行检测框。
对于同一个文本行,经文本检测网络检测可能得到多个文本行检测框,可以利用非极大值抑制算法抑制文本行检测框的数量,以便确定最终的检测结果,提高文本检测的精确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(北京)科技有限公司,未经创新奇智(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010623505.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生态农庄
- 下一篇:原位水生态营养盐沉积物-上覆水界面迁移转化模拟系统





