[发明专利]一种基于多特征算子的乱码文档图片识别方法及系统在审
申请号: | 202110143109.0 | 申请日: | 2021-02-02 |
公开(公告)号: | CN113158745A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 相彦 | 申请(专利权)人: | 北京惠朗时代科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 代述波 |
地址: | 100176 北京市大兴区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 算子 乱码 文档 图片 识别 方法 系统 | ||
1.一种基于多特征算子的乱码文档图片识别方法,其特征在于,包括如下步骤:(1)采集多个图像样本,对所述图像样本进行多尺度图像加强处理;(2)将所述图像样本进行SIFT特征提取;(3)对所述图像样本进行GIST特征提取;(4)获取待检测图像,通过多数值KNN算法对所述待检测图像进行判定。
2.如权利要求1所述的一种基于多特征算子的乱码文档图片识别方法,其特征在于,步骤(1)中,所述图像样本包括正常训练样本和负正常训练样本,选取多个非乱码文档图片作为所述正常训练样本,选取多个乱码文档图片作为所述负正常训练样本。
3.如权利要求2所述的一种基于多特征算子的乱码文档图片识别方法,其特征在于,步骤(1)包括如下步骤:将所述正常训练样本和所述负正常训练样本分别进行多尺度的高斯模糊;将模糊后的所述正常训练样本和所述负正常训练样本分别和原图做减法,得到不同程度的细节信息;将不同程度的细节信息加权到原图中,得到含有丰富细节信息的加强图像。
4.如权利要求2所述的一种基于多特征算子的乱码文档图片识别方法,其特征在于,通过人工选取的方式分别选取所述正常训练样本和所述负正常训练样本。
5.如权利要求1所述的一种基于多特征算子的乱码文档图片识别方法,其特征在于,所述步骤(4)中,利用上述步骤(1)~(3)对所有所述图像样本进行处理后通过数值KNN算法模型存储,利用所述数值KNN算法模型对所述待检测图像进行判定。
6.如权利要求2所述的一种基于多特征算子的乱码文档图片识别方法,其特征在于,步骤(4)包括如下步骤:计算所述待检测图像分别与各所述训练样本之间的欧式距离,利用欧式距离得到相似度高的多个所述训练样本,判断得到的多个所述训练样本是否属于所述正常训练样本或负正常训练样本,当多数属于正常训练样本时判定所述待检测图像为非乱码文档图片,否则判定所述待检测图像为乱码文档图片。
7.如权利要求6所述的一种基于多特征算子的乱码文档图片识别方法,其特征在于,计算所述待检测图像分别与各所述训练样本之间的欧式距离,利用欧式距离得到相似度高的多个所述训练样本包括:基于SIFT特征算子的欧式距离计算所述待检测图像与其它训练样本的空间距离;基于GIST特征算子的欧式距离计算它与其它训练样本的空间距离;对两种特征算子的欧式距离进行等权重加权,得到与所述待检测图像最相似的多个所述训练样本。
8.如权利要求6所述的一种基于多特征算子的乱码文档图片识别方法,其特征在于,包括如下步骤:多次选取数量不同的相似度高的训练样本,当所述待检测图像被判定为所述非乱码文档图片的次数更多时,判定所述待检测图像被判定为所述非乱码文档图片,否则判定所述待检测图像为所述乱码文档图片。
9.如权利要求8所述的一种基于多特征算子的乱码文档图片识别方法,其特征在于,若所述待检测图像有2次以上被判定为所述乱码文档图片,则判定为所述乱码文档图片。
10.一种基于多特征算子的乱码文档图片识别系统,其特征在于,应用如权利要求1-9中任一项所述一种基于多特征算子的乱码文档图片识别方法实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京惠朗时代科技有限公司,未经北京惠朗时代科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110143109.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有挡光板的LED灯板
- 下一篇:一种计算机基础技能测评系统