[发明专利]基于云计算的文本扫描识别方法无效
申请号: | 201310145112.1 | 申请日: | 2013-04-25 |
公开(公告)号: | CN104123550A | 公开(公告)日: | 2014-10-29 |
发明(设计)人: | 魏昊;张磊 | 申请(专利权)人: | 魏昊;张磊 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/54 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 王清义 |
地址: | 江苏省南京市白下区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 计算 文本 扫描 识别 方法 | ||
1.一种基于云计算的文本扫描识别方法,其特征在于包括以下步骤:
第一步,文档图像预处理:针对从扫描仪直接扫描出的原始图像进行预处理,以将原始图像二值化并且去除原始图像噪点,将扭曲的原始图像还原,将原始图像压缩以便后续图像处理;
第二步,文档图像版面特征分析:将预处理文档图像加载到版面分析引擎进行处理,以获得预处理文档图像版面特征信息;
第三步,文档图像掩膜:根据预处理文档图像的版面特征信息,添加相应的掩膜,然后对关键域进行局部处理,即提取预处理文档图像的版面特征信息并与掩模的特征信息进行匹配;
第四步,碎片化:即文档图片定位与分割,具体为采用图像局部特征定位方法、表格识别方法和OCR关键字符识别定位方法,对经过文档图像掩膜步骤处理后的预处理文档图像进行切碎处理;
第五步:碎片的OCR/ICR识别:识别小碎片,拼接并输出文字,以便进行语意识别;
第六步,语意识别:利用统计语言模型算法结合行业辞典,对OCR/ICR的结果进行逻辑校验。
2.根据权利要求1所述的基于云计算的文本扫描识别方法,其特征在于所述文档图像预处理包括以下步骤:
首先,对原始图像采用权平均法进行处理后,再采用最大类间方差进行二值化处理,将原始的真彩色以及高DPI的灰度图转化为二值化的黑白图;
其次,对二值化的黑白图进行图像去噪,以去除了扫描过程中由于电子信号干扰带来的图像噪点,形成预处理文档图像;
第三,对预处理文档图像进行纠偏处理,使扭曲的图像还原。
3.根据权利要求2所述的基于云计算的文本扫描识别方法,其特征在于所述文档图像版面特征分析为:通过版面分析算法搜索整个预处理文档图像并对预处理文档图像进行区域划分和类型识别,以获得预处理文档图像的版面特征信息,所述版面特征信息包括区域分割线坐标信息、预处理文档图像的类型信息以及预处理文档图像中的文字对象的坐标信息。
4.根据权利要求3所述的基于云计算的文本扫描识别方法,其特征在于:所述预处理文档图像的类型信息包括文字、图章、图片、公式和条码。
5.根据权利要求4所述的基于云计算的文本扫描识别方法,其特征在于所述文档图像掩膜为:分别用各类型的掩模依次覆盖和匹配经过文档图像版面特征分析步骤处理后的预处理文档图像,如果掩模的特征信息和预处理文档图像的版面特征信息相一致,则所述预处理文档图像与掩模的类型相一致并且将掩模的类型信息添加到预处理文档图像的版面特征信息中。
6.根据权利要求5所述的基于云计算的文本扫描识别方法,其特征在于:在文档图像掩步骤中,还包括根据具体的业务特征制作各种类型的掩模的步骤。
7.根据权利要求6所述的基于云计算的文本扫描识别方法,其特征在于所述文档图片定位与分割包括以下步骤:
首先,将预处理文档图像进行定位分割,即根据预处理文档图像的版面特征信息中的掩膜的特征信息,提取掩膜的具体坐标信息;
其次,根据掩模的具体坐标信息,将具体的业务数据图像从整个的预处理文档图像中截取出来,形成具有具体业务数据的碎片图像。
8.根据权利要求7所述的基于云计算的文本扫描识别方法,其特征在于:所述碎片的OCR/ICR识别为对具有具体业务数据的碎片图像通过多路OCR引擎进行识别处理,以识别小碎片,拼接并输出文字。
9.根据权利要求8所述的基于云计算的文本扫描识别方法,其特征在于: 在所述碎片的OCR/ICR识别过程中,采用大数据处理方案里的工作分解并发合成的方法对输出文字第四步中输出的文字进行分解并发与集成处理。
10.根据权利要求7所述的基于云计算的文本扫描识别方法,其特征在于所述语意识别包括以下步骤:
首先,根据不同的行业特征建立行业词语库;
其次,对词语进行组合:针对不同专业,生成专业词语组合,并根据不同的行业,基于所述行业词语库,统计得出词语组合的概率分值;
第三,对OCR的结果句进行划分并自动替换不可识别词语,生成多种组合句;
第四,计算生成的多种组合句的各自的总概率分值,并将总概率分值最高的组合句保留。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于魏昊;张磊,未经魏昊;张磊许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310145112.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种里程表平面齿自动定位铣削机
- 下一篇:一种过盈螺栓装配用气动机械式拉力机