[发明专利]通过解析PDL文件为神经网络生成OCR用训练数据在审

专利信息
申请号: 202010268192.X 申请日: 2020-04-08
公开(公告)号: CN111797886A 公开(公告)日: 2020-10-20
发明(设计)人: 苏东培 申请(专利权)人: 京瓷办公信息系统株式会社
主分类号: G06K9/62 分类号: G06K9/62;G06K9/00;G06N3/04;G06N3/08
代理公司: 北京航忱知识产权代理事务所(普通合伙) 11377 代理人: 陈立航
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 通过 解析 pdl 文件 神经网络 生成 ocr 训练 数据
【说明书】:

本发明提供训练和使用人工神经网络(ANN)的方法和装置。运算装置可接收包含文本的训练文档。运算装置可对训练文档进行解析来确定出多个训练数据项。各训练数据项可包含训练标签和位置信息,训练标签与训练文档内的文本相关联,位置信息表示与训练标签相关联的文本的位置。可使用多个训练数据项和训练用输入样本对ANN进行训练来识别文档内的文本,训练用输入样本包含训练文档。在对ANN进行训练之后,可接收在应用文档中进行文本预测的请求,应用文档不同于训练文档。应用文档可包含第二文本。可通过将训练后的ANN应用于应用文档,来确定出第二文本的预测。在确定出第二文本的预测之后,可提供与第二文本相关联的信息来作为输出。

技术领域

本发明涉及通过解析页面描述语言(PDL)文件为神经网络生成光学字符识别(OCR)用训练数据的方法、运算装置和制品。

本申请基于2019年4月8日提交的美国专利申请第16/378470号,并要求该美国专利申请的优先权,该美国专利申请的全部内容在此引入本申请作为参考。

背景技术

在全世界范围内,印刷装置的数量不断增加,地理分布不断扩展,并且越来越多地连接到网络中。网络中可以包含很多印刷装置。这样的印刷装置可以具有各种特征、功能和性能。例如,有些印刷装置可以进行彩色打印,而有些印刷装置不能。还有,再举另一个例子,有些印刷装置具备可以进行双面打印的双面打印硬件,而有些印刷装置只能进行单面打印。

还有,一些印刷装置具备光学字符识别(OCR)功能。光学字符识别将打字打出的或打印出的文本转换成机器编码文本,大多情况下是根据扫描的文档或文档的照片进行转换。光学字符识别是众多应用软件中用于电子数据输入的常用工具。传统的光学字符识别包括图案匹配、图像相关性、字形分解和特征检测之类的技术。可以利用广泛的人类工程学来分离文本中的输入字形,并设计字形特征。

发明内容

第一方式中,提供一种训练和使用人工神经网络(ANN)的方法。运算装置接收包含文本的训练文档。所述运算装置对所述训练文档进行解析,确定出多个训练数据项。所述多个训练数据项中的各训练数据项包含训练标签和位置信息,所述训练标签与所述训练文档内的文本相关联,所述位置信息表示与所述训练标签相关联的所述训练文档内的文本的位置。使用所述多个训练数据项和训练用输入样本对ANN进行训练来识别文档内的文本,所述训练用输入样本包含所述训练文档。在对所述ANN进行训练之后,接收在应用文档中进行文本预测的请求,所述应用文档不同于所述训练文档。所述应用文档包含第二文本。通过将训练后的所述ANN应用于所述应用文档,来确定出所述第二文本的预测。在确定出所述第二文本的所述预测之后,提供与所述第二文本相关联的信息来作为输出。

第二方式中,提供一种运算装置。所述运算装置具备一个或多个处理器以及非易失性数据存储装置。所述非易失性数据存储装置至少存储了计算机可读指令,所述计算机可读指令由所述一个或多个处理器执行时,使所述运算装置执行任务。所述任务包含:接收包含文本的训练文档;对所述训练文档进行解析来确定出多个训练数据项,所述多个训练数据项中的各训练数据项包含训练标签和位置信息,所述训练标签与所述训练文档内的文本相关联,所述位置信息表示与所述训练标签相关联的所述训练文档内的文本的位置;使用所述多个训练数据项和训练用输入样本对ANN进行训练来识别文档内的文本,所述训练用输入样本包含所述训练文档;在对所述ANN进行训练之后,接收在应用文档中进行文本预测的请求,所述应用文档不同于所述训练文档,所述应用文档包含第二文本;通过将训练后的所述ANN应用于所述应用文档,来确定出所述第二文本的预测;以及,在确定出所述第二文本的所述预测之后,提供与所述第二文本相关联的信息来作为输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京瓷办公信息系统株式会社,未经京瓷办公信息系统株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010268192.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top