[发明专利]一种融合语言信息的低资源语种OCR方法有效
申请号: | 202110756557.8 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113420766B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 冯冲;滕嘉皓 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/19;G06V30/262 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 语言 信息 资源 语种 ocr 方法 | ||
本发明所述一种融合语言信息的低资源语种OCR方法,属于OCR技术领域。包括:获取低资源语种的开源文本生成图片并基于图像和文字特性对低资源语种的OCR训练数据增强;基于语种间相似性选取语低资源语种相似度高的高资源语种,应用混合微调迁移策略将高资源语种的OCR模型迁移至低资源语种OCR模型,再基于该OCR模型识别,将识别结果的打分为判断依据,判断识别结果中是否包含错误。针对得分低的语句进行词表探测,定位识别错误的单词并采用多策略融合,以词表和编辑距离为依据生成可能校正方案;最后对OCR识别序列的每一种校正方案进行打分,选择出最佳校正方案。所述方法提升了低资源语种因数据资源稀缺导致OCR识别准确率。
技术领域
本发明涉及一种融合语言信息的低资源语种OCR方法,尤其涉及一种基于混合微调策略的训练方法及融合语言信息的文本校正方法,在低资源语种的OCR中通过融合语言信息进行建模且能够在测试集中提升模型的识别能力,属于OCR技术领域。
背景技术
光学字符识别OCR技术模拟人类视觉的智能性,通过对图像进行处理及分析识别出图像中的文字信息,属于计算机视觉和自然语言处理两个研究领域的结合。该技术在图像和文本两种信息载体之间建立了桥梁,可以快速提取图像中文本信息,取代了人工重新录入的方式。
随着OCR领域研究成果的与日俱增,其技术水平也日趋成熟,但同时,也可以明显发现不同语种间研究数量与技术能力的不均衡性逐渐加剧。究其原因可以发现,性能优良的OCR技术均采用深度学习方法实现,需要大规模训练数据的支持。由于低资源语种数据资源的稀缺性无法满足深度学习方法所需,其OCR能力水平的不足较高资源语种愈发突显。
在研究低资源语种的OCR技术方面,克服数据资源规模小的限制及融合语言信息的处理方式是值得探索的。深度学习方法能够更好的拟合数据特征,相较传统方法而言拥有更强的特征表达能力,是当前OCR技术的主流方法。然而,深度学习是一种基于大数据的研究方法,若训练集中数据资源规模偏小,会造成网络模型无法准确拟合数据集特征,不能在测试集中取得良好的效果。目前,常用的解决数据资源不足的方式是数据增强和迁移学习。主流的数据增强方法多从计算机视觉角度出发进行数据规模和数据多样性的提升,但是未能就语言自身特性出发实现更多有效增强方式;迁移学习方法则缺少基于语种相似性实现的跨语种知识共享。
此外,当前计算方法的识别准确率很大程度上取决于输入的图像,而未能充分利用语言层面的信息。因此,针对因为图片质量不佳、字符不够规范、字符相似性高等因素导致的OCR结果错误无法较好的优化。通过在OCR后处理阶段利用自然语言处理的方法实现文本校正,将会有效提升OCR的最终识别性能。
综上所述,融合语言信息的低资源语种OCR处理方法研究,对于OCR领域而言仍然是亟待解决的问题之一。但是,目前尚未见到针对低资源语种具有较好识别性能的系统或相关技术公开。
发明内容
本发明的目的是为了解决现有低资源语种OCR,受训练数据资源稀缺的限制,导致低资源语种与高资源语种的识别能力存在较大差距,提出一种融合语言信息的低资源语种OCR方法,该方法首先对低资源语种的OCR训练数据集增强,然后基于迁移学习将高资源语种的OCR模型通过混合微调迁移策略迁移至低资源语种OCR模型;再基于低资源语种OCR模型构建低资源语种的词表,用于发现OCR识别结果中的错误并作为生成校正选项依据,最后对测试集中的图片进行基于混合微调策略的OCR识别和文本校正,采用融合语言信息的方式提升低资源语种OCR识别结果的准确率。
为了达到上述目的,本发明采用如下技术方案:
所述融合语言信息的低资源语种OCR方法,包括以下步骤:
步骤1:获取低资源语种的开源文本数据并生成图片,基于图像特性和文字特性,对低资源语种的OCR训练数据集增强,用于提升模型鲁棒性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110756557.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置