[发明专利]字母检测装置、方法以及系统在审
申请号: | 201980061869.8 | 申请日: | 2019-07-17 |
公开(公告)号: | CN112868021A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 白荣民;李活石;李巴道 | 申请(专利权)人: | 纳宝株式会社;LINE株式会社 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T7/11;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 太香花;安玉 |
地址: | 韩国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字母 检测 装置 方法 以及 系统 | ||
根据一实施例公开字母检测方法,所述字母检测方法由字母检测装置执行,其特征在于,包括如下步骤:获得输入图像;以及将输入图像输入到包括神经网络的字母检测模型中并进行处理;从字母检测模型中获得至少一个输出图像,其中,所述输出图像包括概率值图像,其将在输入图像内存在字母的概率表示在与输入图像相对应的位置的图像空间上。
技术领域
本公开涉及图像处理领域。更具体地,本公开涉及通过使用机器学习模型检测包括在图像中的字母的装置、方法以及系统。
背景技术
检测图像内的文字的位置是在人机交互作用(human computer interaction,HCI)中关键的要素。从文字图像中检测文字是较为简单的,但是,包括在招牌、路标、菜单等在实际生活中摄影的图像内的文字由于各种设计性因素和图像转变、光反射等的影响在检测时存在困难。
目前已经提出了一种在图像中检测由多个字母构成的词汇的方法,但是,当以词汇为中心而不是以个别字母为中心检测文字时,存在对以曲线形式配置的文字或根据视点发生歪曲的文字的检测精度降低的问题。
发明内容
(一)要解决的技术问题
根据一实施例的字母检测装置、方法以及系统要解决的技术问题是以较高的精度检测各字母,而不是检测由多个字母构成的词汇。
并且,根据一实施例的字母检测装置、方法以及系统要解决的技术问题是增加少量的真值(ground truth,GT)。
并且,根据一实施例的字母检测装置、方法以及系统要解决的技术问题是通过监督(supervision)学习和弱监督(weakly supervision)学习过程来有效地训练字母检测模型。
(二)技术方案
根据一实施例的字母检测方法包括如下步骤:获得输入图像;将所述输入图像输入到包括神经网络的字母检测模型中并进行处理;以及从所述字母检测模型中获得至少一个输出图像,其中,所述输出图像包括概率值图像,其将在所述输入图像中存在字母的概率表示在与所述输入图像相对应的位置的图像空间上。
(三)有益效果
根据一实施例的字母检测装置、方法以及系统可以通过检测各字母,而不是检测由多个字母构成的词汇,以高精度检测以曲线形式配置的字母或根据视点发生歪曲的字母。
并且,根据一实施例的字母检测装置、方法以及系统可以生成真值(GT),其通过标注有(annotated)词汇区域的位置的学习用图像来提供字母区域的位置信息。
并且,根据一实施例的字母检测装置、方法以及系统可以通过监督(supervision)学习和弱监督(weakly supervision)学习过程有效地训练字母检测模型。
但是,根据一实施例的字母检测装置、方法以及系统能够实现的效果不限于上述的内容,而对于上文中没有提及的效果,本公开所属的技术领域的普通技术人员可以根据下文中的记载清楚地理解。
附图说明
为了对本说明书中引用的附图进行充分理解,提供对各附图的简单说明。
图1是示出根据一实施例的字母检测装置的图。
图2是用于说明根据一实施例的字母检测方法的流程图。
图3是示出输入到字母检测模型中的图像和由字母检测模型输出的图像的图。
图4是示出根据一实施例的字母检测模型的神经网络结构的图。
图5是用于说明使用标注有字母区域的位置值的学习用图像来训练字母检测模型的方法的流程图。
图6是用于说明基于学习用图像的字母检测模型的训练过程的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于纳宝株式会社;LINE株式会社,未经纳宝株式会社;LINE株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980061869.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于显示器或触控面板的具有强化的盖玻璃
- 下一篇:流体递送系统和方法