[发明专利]测试样本生成方法、系统、计算机设备及存储介质在审

专利信息
申请号: 202010045394.8 申请日: 2020-01-16
公开(公告)号: CN111222517A 公开(公告)日: 2020-06-02
发明(设计)人: 何玉聪 申请(专利权)人: 深圳壹账通智能科技有限公司
主分类号: G06K9/46 分类号: G06K9/46;G06K9/62
代理公司: 北京英特普罗知识产权代理有限公司 11015 代理人: 王勇;邓小玲
地址: 518052 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 测试 样本 生成 方法 系统 计算机 设备 存储 介质
【说明书】:

发明实施例提供了一种测试样本生成方法,所述方法包括:为目标证件类别配置至少一个目标证件底图,目标证件底图为未携带特征数据的证件图片;获取所述目标证件类别关联的多个目标特征;根据多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括多个目标特征对应的多个目标特征数据;根据目标证件底图和多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。本发明实施例提供的测试样本生成方法,可以通过少量数据,自动生成大批量多个场景的符合格式要求且不涉及隐私的证件图片。

技术领域

本发明实施例涉及计算机数据处理领域,尤其涉及一种测试样本生成方法、系统、计算机设备及计算机可读存储介质。

背景技术

随着计算机技术的发展,将纸上内容以电子数据形式存储到本地端或云端,有效提高了工作效率。将纸上内容转化为电子数据,当下做法是:由人工将纸上内容手动输入到计算机设备中。例如,公司将新进员工的纸质毕业证上的名片内容(姓名、学校、专业、学位等)手动输入到员工档案录中。然而,这种做法的缺陷是显而易见,费时费力、容易出错,并且重复性高。

为解决上述问题提出了基于光学文字识别(OCR,Optical CharacterRecognition)技术的光学识别工具,该光学识别工具在于识别手写字符或扫描字符,对以纸质文字转化为数字化的电子信息。可预见的,光学识别工具在进行文字识别过程中可能会遇到各式各样的识别场景,为了确保该光学识别工具能够适应于该各式各样的识别场景,需要在投入使用前对该光学文字识别工具进行识别测试。本发明人目前所解决的技术中,本领域技术人员通常会收集大量的纸质材料,将该大量纸质材料转化为图片格式文件集,然后将图片格式文件集用于测试该光学识别工具的测试样本。

上述测试样本获取效率低,也难于将各式各样的测试样本收集齐全;另外,在测试样本收集过程中也可能会泄露隐私内容。

发明内容

有鉴于此,本发明实施例的目的是提供一种测试样本生成方法、系统、计算机设备及计算机可读存储介质,可以解决测试样本获取效率低、测试样本收集不齐全以及泄露隐私内容的问题。

为实现上述目的,本发明实施例提供了一种测试样本生成方法,包括以下步骤:

为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片;

获取所述目标证件类别关联的多个目标特征;

根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据;及

根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。

优选地,为目标证件类别配置至少一个目标证件底图的步骤,包括:

为预先设置的多个证件类别分别配置对应的至少一个证件底图,所述多个证件类别包括所述目标证件类别;

其中,每个证件类别对应的证件为具有若干个统一版面格式的标准件。

优选地,获取所述目标证件类别关联的多个目标特征的步骤,包括:

通过图像采集装置采集目标证件类别的证件图片;

为所述证件图片的每个像素点生成坐标信息,其中,所述证件图片中的每个像素点的坐标信息与目标证件底图中相应像素点的坐标信息具有一一对应关系;

识别所述证件图片上的一组或多组文字信息,并记录每组文字信息的文字特征,所述文字特征包括在所述证件图片中的坐标信息、字体和字号;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010045394.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top