[发明专利]生成训练样本的方法、系统及存储介质有效
申请号: | 201811199397.6 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109344904B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 徐青松;李青 | 申请(专利权)人: | 杭州睿琪软件有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 田菁 |
地址: | 310053 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 训练 样本 方法 系统 存储 介质 | ||
1.一种生成训练样本的方法,所述训练样本用于训练识别影像中的内容的模型,所述方法包括:
获取第一样本的影像特征,其中所述第一样本的影像特征包括主体特征和背景特征;
将所述主体特征应用于第二样本中的内容以建立第一图层;
基于所述背景特征建立第二图层;以及
将所述第一图层和所述第二图层相叠加以产生叠加后的影像,从而生成所述训练样本,其中所述第一图层位于所述第二图层之上。
2.根据权利要求1所述的方法,其特征在于,所述第一样本和所述第二样本中的任一个包括以下各项中的至少部分:包含一张单据的影像、以及包含多张单据的影像。
3.根据权利要求1所述的方法,其特征在于,所述第一样本的影像特征还包括前景特征,所述方法还包括:
基于所述前景特征建立第三图层;以及
将所述第一图层、所述第二图层、以及所述第三图层叠加以产生所述叠加后的影像,从而生成所述训练样本,其中所述第一图层位于所述第二图层之上,并且所述第三图层位于所述第一图层之上。
4.根据权利要求1所述的方法,其特征在于,所述第一样本的影像特征还包括整体特征,所述方法还包括:
将所述整体特征应用于所述叠加后的影像,从而生成所述训练样本。
5.根据权利要求1所述的方法,其特征在于,所述第一样本和所述第二样本中的任一个为从样本库中随机选取的样本。
6.根据权利要求1所述的方法,其特征在于,获取所述第一样本的影像特征包括:从影像特征库中选取一个影像特征或多个影像特征的组合作为所述第一样本的影像特征。
7.根据权利要求1所述的方法,其特征在于,所述第二样本中的内容为从样本内容库中选取的一个样本内容或多个样本内容的组合。
8.根据权利要求1所述的方法,其特征在于,所述第二样本中的内容包括单据上所记载的以下各项中的一个或多个的组合:单位的名称、单位的图形化标识、条目的名称、金额的货币种类、金额的数值、单据的识别码、以及单据的图形化标识。
9.根据权利要求1所述的方法,其特征在于,所述主体特征包括以下各项中的一个或多个的组合:字体、模糊、墨色、缺墨、溢墨、墨迹不匀、拉伸、以及挤缩。
10.根据权利要求1所述的方法,其特征在于,所述背景特征包括以下各项中的一个或多个的组合:图形、文字、颜色、底纹、水印、明暗、光线、污渍、腐蚀、磨损、破损、以及打孔。
11.根据权利要求3所述的方法,其特征在于,所述前景特征包括以下各项中的一个或多个的组合:图形、文字、污渍、腐蚀、磨损、破损、以及打孔。
12.根据权利要求4所述的方法,其特征在于,所述整体特征包括以下各项中的一个或多个的组合:光线、倾斜、折痕、褶皱、扭曲、腐蚀、磨损、破损、以及打孔。
13.一种生成训练样本的方法,所述训练样本用于训练识别影像中的内容的模型,所述方法包括:
从影像特征库中选取一个影像特征或多个影像特征的组合作为主体特征,并且选取一个影像特征或多个影像特征的组合作为背景特征;
从样本内容库中选取一个样本内容或多个样本内容的组合作为样本内容;
将所述主体特征应用于所述样本内容以建立第一图层;
基于所述背景特征建立第二图层;以及
将所述第一图层和所述第二图层相叠加以产生叠加后的影像,从而生成所述训练样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州睿琪软件有限公司,未经杭州睿琪软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811199397.6/1.html,转载请声明来源钻瓜专利网。