[发明专利]一种基于多特征算子的乱码文档图片识别方法及系统在审

申请号：	202110143109.0	申请日：	2021-02-02
公开（公告）号：	CN113158745A	公开（公告）日：	2021-07-23
发明（设计）人：	相彦	申请（专利权）人：	北京惠朗时代科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62
代理公司：	成都鱼爪智云知识产权代理有限公司 51308	代理人：	代述波
地址：	100176 北京市大兴区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特征算子乱码文档图片识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多特征算子的乱码文档图片识别方法，其特征在于，包括如下步骤：(1)采集多个图像样本，对所述图像样本进行多尺度图像加强处理；(2)将所述图像样本进行SIFT特征提取；(3)对所述图像样本进行GIST特征提取；(4)获取待检测图像，通过多数值KNN算法对所述待检测图像进行判定。

2.如权利要求1所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，步骤(1)中，所述图像样本包括正常训练样本和负正常训练样本，选取多个非乱码文档图片作为所述正常训练样本，选取多个乱码文档图片作为所述负正常训练样本。

3.如权利要求2所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，步骤(1)包括如下步骤：将所述正常训练样本和所述负正常训练样本分别进行多尺度的高斯模糊；将模糊后的所述正常训练样本和所述负正常训练样本分别和原图做减法，得到不同程度的细节信息；将不同程度的细节信息加权到原图中，得到含有丰富细节信息的加强图像。

4.如权利要求2所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，通过人工选取的方式分别选取所述正常训练样本和所述负正常训练样本。

5.如权利要求1所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，所述步骤(4)中，利用上述步骤(1)～(3)对所有所述图像样本进行处理后通过数值KNN算法模型存储，利用所述数值KNN算法模型对所述待检测图像进行判定。

6.如权利要求2所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，步骤(4)包括如下步骤：计算所述待检测图像分别与各所述训练样本之间的欧式距离，利用欧式距离得到相似度高的多个所述训练样本，判断得到的多个所述训练样本是否属于所述正常训练样本或负正常训练样本，当多数属于正常训练样本时判定所述待检测图像为非乱码文档图片，否则判定所述待检测图像为乱码文档图片。

7.如权利要求6所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，计算所述待检测图像分别与各所述训练样本之间的欧式距离，利用欧式距离得到相似度高的多个所述训练样本包括：基于SIFT特征算子的欧式距离计算所述待检测图像与其它训练样本的空间距离；基于GIST特征算子的欧式距离计算它与其它训练样本的空间距离；对两种特征算子的欧式距离进行等权重加权，得到与所述待检测图像最相似的多个所述训练样本。

8.如权利要求6所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，包括如下步骤：多次选取数量不同的相似度高的训练样本，当所述待检测图像被判定为所述非乱码文档图片的次数更多时，判定所述待检测图像被判定为所述非乱码文档图片，否则判定所述待检测图像为所述乱码文档图片。

9.如权利要求8所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，若所述待检测图像有2次以上被判定为所述乱码文档图片，则判定为所述乱码文档图片。

10.一种基于多特征算子的乱码文档图片识别系统，其特征在于，应用如权利要求1-9中任一项所述一种基于多特征算子的乱码文档图片识别方法实现。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京惠朗时代科技有限公司，未经北京惠朗时代科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110143109.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多特征算子的乱码文档图片识别方法及系统在审

专利文献下载