[发明专利]一种基于OCR的单据自动识别方法在审
申请号: | 202010494704.4 | 申请日: | 2020-06-03 |
公开(公告)号: | CN111680679A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 何昱 | 申请(专利权)人: | 重庆数道科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 张塨 |
地址: | 400000 重庆*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ocr 单据 自动识别 方法 | ||
1.一种基于OCR的单据自动识别方法,其特征在于,所述自动识别方法包括以下步骤:
S1,基于OCR对单据图像中的文本信息进行提取,得到文字数据;
S2,根据预设特征值对所述文字数据中的单据类型进行识别,得到第一解析结果;
S3,根据预设逻辑对所述文字数据中的单据模板进行识别,得到第二解析结果;
S4,基于第一预设识别规则对所述文字数据中的文字含义进行识别,得到第三解析结果,其中,对车牌信息包括进行误差校正识别;
S5,将所述第一解析结果、第二解析结果和第三解析结果进行归集;
其中,步骤S5中的归集结果将储存于数据库中,以形成历史数据。
2.如权利要求1所述的一种基于OCR的单据自动识别方法,其特征在于,所述自动识别方法还包括步骤S6,基于第二预设识别规则对所述文字数据中的文字含义进行识别,得到第三解析结果。
3.如权利要求1或2所述的一种基于OCR的单据自动识别方法,其特征在于,步骤S2中的预设特征值包括限定关键字,即在识别到第一关键字时,不能包含第二关键字,否则识别无效;识别到第二关键字时,不能包含第一关键字,否则识别无效。
4.如权利要求1或2所述的一种基于OCR的单据自动识别方法,其特征在于,步骤S3中的预设逻辑包括对提取的文字特征进行分解匹配,若匹配对应,则认定该文字特征为单据模板;该预设逻辑还包括对特征值的提取,其特征值的提取依照单据上的预设方位坐标。
5.如权利要求1或2所述的一种基于OCR的单据自动识别方法,其特征在于,步骤S4中的通用识别规则包括根据单据字段的特性将其进行划分,即划分为有限集名词集合、有限集固定规律字母组合集合、无限集数字集合和可穷举固定格式。
6.如权利要求5所述的一种基于OCR的单据自动识别方法,其特征在于,对于所述有限集名词集合的提取过程包括以下步骤:
提取名词并将其分类;
提取匹配关键字;
提取排斥关键字;
名词收录完成。
7.如权利要求5所述的一种基于OCR的单据自动识别方法,其特征在于,对于所述有限集固定规律字母组合集合的提取方法包括根据提取数据与数据库中历史数据的比对,对其进行莱文斯坦距离的计算。
8.如权利要求1或2所述的一种基于OCR的单据自动识别方法,其特征在于,步骤S4中的误差矫正识别包括以下算法步骤:
根据X中每个车牌对应的车牌ID,获取其历史可靠性更新次数,并按照和X一一对应的顺序构造出向量Q;
根据预设的超参数λ和Error(Q)计算出初始的结果向量M;
对向量M进行MIN-MAX归一化处理;
根据预设超参数θ,更新M,其更新公式为C=θM;
若R(X,Xi)0.5,更新Ci,Ci=Ci+α,其中α为补偿系数;
G=V,E为无向无权同质网络,为X中尚未连接顶点增加一条边,形成完全图;
其中,Error(X)=Sigmoid(-In(λX)),Sigmoid(x)=1/(1+e-x),α=θp,p∈(0,1);根据向量C更新车牌信息的可靠性,输出可靠性较高的数据作为有限集固定规律字母组合集合。
9.如权利要求8所述的一种基于OCR的单据自动识别方法,其特征在于,R(X,Xi)函数的计算公式如下:
R(X,Xi)=ΣEnXn=ETX,
其中,Ei表示X中的第n个节点与第i个节点是否相连,若相连,En=1,否则为0,对ET进行平均归一化处理后再与X相乘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆数道科技有限公司,未经重庆数道科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010494704.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无接触式刹车
- 下一篇:一种高分散力分散剂的合成工艺及其应用