[发明专利]基于光学字符识别技术的航空维修工卡工作内容识别方法有效
申请号: | 201611152083.1 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106845467B | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 刘剑;李俊杰;刘媛;王丽;孙金涛;王本元;李鹏;张强 | 申请(专利权)人: | 北京航天测控技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;陈琳琳 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 光学 字符 识别 技术 航空 维修工 工作 内容 方法 | ||
1.一种基于光学字符识别技术的航空维修工卡工作内容识别方法,包括:
步骤1)、对航空维修工卡的内容按类型进行分析,制定相关的模板识别匹配规则以及控制逻辑,生成控制配置文件;所述控制配置文件包括所述模板识别匹配规则与所述控制逻辑;
步骤2)、读取待识别的航空维修工卡的内容,同时加载步骤1)所生成的控制配置文件;
步骤3)、从所述控制配置文件中读取控制逻辑以及模板识别匹配规则,根据所述控制逻辑与模块识别匹配规则采用光学字符识别技术解析待识别航空维修工卡中的内容信息,然后将航空维修工卡的内容进行结构化处理,输出结构化的文档内容;
在步骤1)中,所述制定相关的模板识别匹配规则包括:将表格分解为表头、循环体、表尾三个部分,并对这三个部分进行定义以形成模板;其中,对于表头、表尾,在定义时按照单元格内容方式进行组织,通过文字或图形像素定义单元格的位置,对于循环体,在定义时明确循环条件以及内容;
对表头、循环体、表尾进行定义以形成模板包括:
针对表头、循环体头、表尾头进行定义,在定义时采集关键词文本;
分别针对表头中需识别的单元格标识、循环体中的循环项标识、表尾中的单元格标识进行定义,在定义中采用关键词文本的方法;
在步骤1)中,制定控制逻辑至少包括:定义单元格的识别逻辑、定义循环体的识别逻辑;
所述定义单元格的识别逻辑包括:首先,定义关键词文本,然后继续定义对于找到关键词文本后的相关位置;
定义循环体的识别逻辑包括:对于循环体针对每一个循环项进行定义,确定第一个循环项的关键词文本以及相对位置,其他循环项相对第一个循环项位置进行定义,定义完成后,整个确定循环项的内容;还包括定义循环间隔位置,包括每个循环项的相对间隔值,采用像素值进行标识;还包括定义循环条件;
所述步骤3)进一步包括:
步骤3-1)、初值定义,包括从模板中获取表头、循环体、表尾的头位置信息内容;
步骤3-2)、表头识别,从模板中获取表头中所有单元格定义的关键词文本以及控制逻辑定义内容,通过光学字符识别获取单元格内容以及位置信息,并记录,若获取内容且位置在表头区域,那么遍历找到表头所有已定义的单元格内容,否则,提示模板错误,退出识别过程;
步骤3-3)、循环体识别,从模板中获取循环体定义的循环项内容,包括关键词以及控制逻辑定义内容,通过循环间隔位置定义找到在每个循环条件内找到所有循环项内容,并进行数据记录,若循环条件未结束,则循环获取循环项内容,否则进入表尾识别流程;
步骤3-4)、表尾识别,从模板中获取表尾中所有单元格定义的关键词文本以及控制逻辑定义内容,通过OCR识别获取单元格内容以及位置信息,并记录,若获取内容且位置在表尾区域,那么遍历找到表头所有已定义的单元格内容,否则,提示模板错误,退出识别过程;
步骤3-5)、所有过程结束后,输出所有结构树数据,完成整个识别过程。
2.根据权利要求1所述的基于光学字符识别技术的航空维修工卡工作内容识别方法,其特征在于,所述控制配置文件的格式为:
<headerInfo>表示表头的定义,其定义包括关键词文本<header>、页码<PageIndex>、位置范围<Rect>、单元格内容<cellItem>,对于单元格内容,定义其关键词文本以及逻辑内容;
<bodyGroupInfo>表示循环体的定义,其定义关键词文本<body>、页码<PageIndex>、位置范围<Rect>、循环条件<cycleCond>、间隔值<bodyGap>、循环项<bodyItem>,对于循环项,定义其关键词文本、关联内容以及位置信息;
<footInfo>表示表尾的定义,其定义关键词文本<foot>、页码<PageIndex>、位置范围<Rect>、单元格内容<cellItem>,对于单元格内容,定义其关键词文本以及逻辑内容。
3.根据权利要求1所述的基于光学字符识别技术的航空维修工卡工作内容识别方法,其特征在于,所述结构化的文档内容的样式为:
<headerInfo>表示表头的定义,其定义包括表头标题<header>、页码<PageIndex>、位置范围<Rect>、键值对<cellItem>,对于键值对内容,获取键名称、值名称;
<bodyGroupInfo>表示循环体表的定义,其定义表头名称<body>、页码<PageIndex>、位置范围<Rect>、循环项<bodyItem>、表头内容<tableheaders>、单元格内容<cellItem>,对于每一个表头的列定义,采用<tableHeader>进行定义,对于单元格内容<cellItem>,能知道其具体的行、列位置以及值内容;
<footInfo>表示表尾的定义,其定义表尾标题<foot>、页码<PageIndex>、位置范围<Rect>、键值对<cellItem>,对于键值对内容,能获取键名称、值名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天测控技术有限公司,未经北京航天测控技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611152083.1/1.html,转载请声明来源钻瓜专利网。