[发明专利]一种文档章节分割方法、装置及存储介质在审
| 申请号: | 202011106303.3 | 申请日: | 2020-10-16 |
| 公开(公告)号: | CN112329548A | 公开(公告)日: | 2021-02-05 |
| 发明(设计)人: | 薛晗庆;潘红九;李昊星;陈超;窦小明;施卫科;雷净;李萌萌;杨飞;尹琼;底亚峰;皮彬睿 | 申请(专利权)人: | 北京临近空间飞行器系统工程研究所 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100076 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 章节 分割 方法 装置 存储 介质 | ||
本申请公开了一种文档章节分割方法、装置及存储介质,用于提高图片电子文档的章节内容分割的速度和准确性。本申请提供的文档章节分割方法包括:读取图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息;根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元;识别所述待识别单元中的文字信息,得到待处理文本;将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节。本申请还提供了一种文档章节分割装置及存储介质。
技术领域
本申请涉及信息处理领域,尤其涉及一种文档章节分割方法、装置和存储介质。
背景技术
随着信息技术的不断发展,电子化图书、文档的使用愈发广泛和普遍。图片电子文档是指对纸质图书、稿件、文档等通过拍照、扫描等方式转存成图片格式存储的电子文档。图片电子文档通常由一张张独立的图片组成,使得图片电子文档的使用者很难了解文档的整体结构分布,特别是每一级章节标题下所包含的内容查找起来十分不便。这使得基于图片电子文档章节结构分布的任务 (如章节内容分类、章节内容匹配等)变得难以处理。为了得到图片电子文档的整体结构分布需要将图片电子文档每一级章节标题的内容分割出来。现有技术中,基于图片内容中每一行黑色像素的稀疏程度来确定章节标题所含内容并进行分割,分割结果准确率较低,而且分割后人工确认分割结果所属章节标题,效率低下。
发明内容
针对上述技术问题,本申请实施例提供了一种文档章节分割方法、装置及存储介质,用以图片电子文档的章节内容分割的速度和准确性。
第一方面,本申请实施例提供的一种文档章节分割方法,包括:
读取图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息;
根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元;
识别所述待识别单元中的文字信息,得到待处理文本;
将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节。
进一步的,所述输入图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息包括:
读取图片电子文档,确定页码页数信息;
读取所述图片电子文档对应的树形目录结构信息,所述树形目录结构信息包括层级信息,所述层级信息对应的章节标题信息和同级章节标题信息之间的分隔符;
判断所述分隔符是否正确,若不正确则提示重新输入所述树形目录结构信息;
读取所述图片电子文档对应的栏位信息;
判断所述栏位信息是否正确,若不正确则提示重新输入所述栏位信息。
进一步的,所述根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元包括:
对所述图片电子文档中的每一张图片,执行以下操作:
读取当前图片对应的栏位信息;
若所述栏位信息的栏位数目小于1,则不执行栏位分割,否则进行栏位分割。
优选的,所述栏位分割包括:
对所述当前图片进行图像二值化处理,得到第一图片;
确定所述第一图片中纵向的黑色像素分布信息和栏位数目信息,确定栏位符所处的位置信息;
根据所述栏位所处的位置信息,对当前图片进行分割,得到待识别单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京临近空间飞行器系统工程研究所,未经北京临近空间飞行器系统工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011106303.3/2.html,转载请声明来源钻瓜专利网。





