[发明专利]多字体样本合成方法、装置、电子设备和存储介质在审

专利信息
申请号: 202011159106.8 申请日: 2020-10-26
公开(公告)号: CN112183020A 公开(公告)日: 2021-01-05
发明(设计)人: 张舒怡;田强;唐林玉 申请(专利权)人: 阳光保险集团股份有限公司
主分类号: G06F40/109 分类号: G06F40/109;G06F40/126
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 钟扬飞
地址: 518000 广东省深圳市福田*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 多字 样本 合成 方法 装置 电子设备 存储 介质
【说明书】:

本申请提供一种多字体样本合成方法、装置、电子设备和存储介质,用以提升语料质量、有效模拟真实样本,节省样本合成时间和模型训练时间。多字体样本合成方法,包括:获取原始语料图像,提取原始语料图像中的语料样本;根据预设字符集,为语料样本配置字体;根据语料样本和字体,设置画布;在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。

技术领域

本申请涉及计算机技术领域,具体而言,涉及一种多字体样本合成方法、装置、电子设备和存储介质。

背景技术

随着图像处理技术的不断发展,用于文本识别的训练样本合成方法,可以替代真实样本、广泛应用于文本识别模型训练。目前业内多采用一张图片上一段文字使用同一字体、并随机旋转的方法,合成图像训练样本。

目前常见的一张图片上一段文字仅使用一种字体的样本合成技术中,存在以下缺点:

一、一张图片上不同字符可能使用不同字体、且整体需要按一定角度旋转。当前技术在生成多字体字符时,无法使各字符排成一行且保持统一角度旋转,因此无法有效模拟真实样本。

二、无法对字符灵活指定字体,导致样本多样性和灵活性受限。如某点阵字体仅支持中文字符,如想通过新闻语料生成样本,则特殊符号无法正常显示,行业内的常用做法是使用支持大部分字符的字体(如宋体),或将不支持的字符删除,这种做法会降低合成样本的多样性;另外,行驶证中的地址中,中文和数字使用不同字体,现有技术无法很好地模拟真实样本。

三、不同字体的样本需分开合成,合成时间成本高;同时导致样本数量多,训练时间长。

发明内容

本申请实施例的目的在于提供一种多字体样本合成方法、装置、电子设备和存储介质,用以提升语料质量、有效模拟真实样本,节省样本合成时间和模型训练时间。

第一方面,本发明实施例提供一种多字体样本合成方法,包括:获取原始语料图像,提取原始语料图像中的语料样本;根据预设字符集,为语料样本配置字体;根据语料样本和字体,设置画布;在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。

在可选的实施方式中,根据预设字符集,为语料样本配置字体,包括:根据预设字体集合,确定字体支持的字符;根据字体支持的字符,生成预设字符集;提取语料样本中的字符串;判断字符串中的字符是否存在于预设字符集,若是则生成字符与字体的配置关系。

在可选的实施方式中,根据语料样本和字体,设置画布,包括:根据语料样本中的字符串,计算字符串使用目标字体时的维度数据;根据维度数据和预设放大规则,生成画布数据。

在可选的实施方式中,在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片,包括:获取语料样本的旋转角度数据;根据旋转角度数据和预设角度定点条件,确定语料样本的旋转起始点;计算字符串的匹配点数据;根据匹配点数据将字符串与旋转起始点匹配,将字符串写入画布。

第二方面,本发明实施例提供一种多字体样本合成装置,包括:第一获取模块,用于获取原始语料图像,提取原始语料图像中的语料样本;第一配置模块,用于根据预设字符集,为语料样本配置字体;第一设置模块,用于根据语料样本和字体,设置画布;第一合成模块,用于在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。

在可选的实施方式中,第一配置模块还用于:根据预设字体集合,确定字体支持的字符;根据字体支持的字符,生成预设字符集;提取语料样本中的字符串;判断字符串中的字符是否存在于预设字符集,若是则生成字符与字体的配置关系。

在可选的实施方式中,第一设置模块还用于:根据语料样本中的字符串,计算字符串使用目标字体时的维度数据;根据维度数据和预设放大规则,生成画布数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阳光保险集团股份有限公司,未经阳光保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011159106.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top