[发明专利]手写样本数字化方法、装置、计算机设备及存储介质在审
| 申请号: | 201811085666.6 | 申请日: | 2018-09-18 |
| 公开(公告)号: | CN109492657A | 公开(公告)日: | 2019-03-19 |
| 发明(设计)人: | 金晨;刘克亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/51;G06F21/62 |
| 代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 黄章辉 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 手写样本 二进制序列 元素信息 预设 矩阵 计算机设备 存储介质 图片像素 样本数据 样本图片 样本 数字化 二进制 数据文件保存 序列化处理 样本数据库 标注信息 计算效率 模型训练 数据集中 数据文件 文本识别 资源消耗 组合方式 计算量 像素点 像素 写入 统一 | ||
本发明公开了一种手写样本数字化方法、装置、计算机设备及存储介质。所述方法包括:获取手写样本数据集中的手写样本;根据样本图片中每个像素点的像素值,生成样本图片对应的图片像素矩阵;按照预设的组合方式,对图片像素矩阵和标注信息进行组合,得到手写样本对应的元素信息;对元素信息进行序列化处理,得到元素信息对应的二进制序列;将二进制序列写入预设的样本数据文件中;将样本数据文件保存到预设的样本数据库中。本发明的技术方案实现了对手写样本数据进行统一的二进制序列化,从而能够直接使用二进制的样本数据对手写文本识别模型进行训练和调优,降低计算量,减少资源消耗,提高计算效率,进而提高模型训练的效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种手写样本数字化方法、装置、计算机设备及存储介质。
背景技术
在对手写文本识别的研究中,需要准备大量的手写样本以支撑手写文本识别模型的模型训练。
但是,目前的手写样本往往以人工收集为主,由于手写样本的种类繁多,造成人工收集到的手写样本数据格式各异,若直接使用人工收集到的手写样本数据集进行手写文本识别模型的模型训练,会造成模型计算的数据量庞大,资源消耗多,降低模型训练的效率。
发明内容
本发明实施例提供一种手写样本数字化方法、装置、计算机设备及存储介质,以解决目前手写样本数据格式不统一导致手写文本识别模型的计算量大训练效率低的问题。
一种手写样本数字化方法,包括:
获取手写样本数据集中的手写样本,其中,所述手写样本包括样本图片和所述样本图片的标注信息;
根据所述样本图片中每个像素点的像素值,生成所述样本图片对应的图片像素矩阵;
按照预设的组合方式,对所述图片像素矩阵和所述标注信息进行组合,得到所述手写样本对应的元素信息;
对所述元素信息进行序列化处理,得到所述元素信息对应的二进制序列;
将所述二进制序列写入预设的样本数据文件中;
将所述样本数据文件保存到预设的样本数据库中。
一种手写样本数字化装置,包括:
样本获取模块,用于获取手写样本数据集中的手写样本,其中,所述手写样本包括样本图片和所述样本图片的标注信息;
矩阵生成模块,用于根据所述样本图片中每个像素点的像素值,生成所述样本图片对应的图片像素矩阵;
信息组合模块,用于按照预设的组合方式,对所述图片像素矩阵和所述标注信息进行组合,得到所述手写样本对应的元素信息;
序列化模块,用于对所述元素信息进行序列化处理,得到所述元素信息对应的二进制序列;
数据写入模块,用于将所述二进制序列写入预设的样本数据文件中;
文件保存模块,用于将所述样本数据文件保存到预设的样本数据库中。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述手写样本数字化方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述手写样本数字化方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811085666.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于输出信息的方法和装置
- 下一篇:一种点云分类方法及终端





