[发明专利]一种用于快速生成OCR训练样本的自适应方法及系统在审
申请号: | 201611239121.7 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106778730A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 王经宇;潘嵘;郑华斌;刘思聪;费行健 | 申请(专利权)人: | 深圳爱拼信息科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市南山区南山街道科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种用于快速生成OCR训练样本的自适应方法及系统,其方法包括利用编辑器生成模板字符数据,标记特征点,并将模板数据打印作为模板;获取屏幕坐标系下特征点及每个所述字符的中心坐标,对模板进行拍照并获取相机图像坐标系下每个所述字符的中心点的坐标;在不同条件下对模板进行多组不同清晰度的拍照,提取出模板上所述特征点的位置坐标;然后利用屏幕坐标系下的所述特征点坐标与所提取的相机图像坐标系下特征点坐标得到两个坐标系之间的线性变换矩阵,再利用该线性变换矩阵得到屏幕坐标系下所述字符中心坐标在实际所拍摄的照片中所对应的字符中心坐标。本发明能够自适应各种真实场景,能够模拟相机和文档的相对运动导致的模糊,提高了样本生成的速率及真实性。 | ||
搜索关键词: | 一种 用于 快速 生成 ocr 训练 样本 自适应 方法 系统 | ||
【主权项】:
一种用于快速生成OCR训练样本的自适应方法,其特征在于,包括如下步骤:步骤1,模板制作,利用编辑器生成模板字符数据,并在模板数据的上下左右标记四个特征点,将模板数据打印出来作为模板;步骤2,选取屏幕坐标系作为参考坐标系,在编辑器中下得到所述四个特征点及每个所述字符的中心坐标,对模板进行拍照并保证模板上每个所述字符的轮廓清晰,采用相关算法获取相机图像坐标系下每个所述字符的中心点坐标;步骤3,在不同条件下对模板进行多组不同清晰度的拍照,采用图像形态学方法,提取出模板上下左右四个所述特征点的位置坐标;步骤4,样本生成,利用步骤2中屏幕坐标系下的所述特征点坐标与步骤3中所述提取的特征点坐标得到两个坐标系之间的线性变换矩阵,再利用该线性变换矩阵得到步骤2中屏幕坐标系下所述字符中心坐标在步骤3中所拍摄的照片中所对应的字符中心坐标。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳爱拼信息科技有限公司,未经深圳爱拼信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611239121.7/,转载请声明来源钻瓜专利网。
- 上一篇:印刷体文本识别方法、系统及装置
- 下一篇:调整图片文字的显示方法及装置