[发明专利]一种文档章节分割方法、装置及存储介质在审
| 申请号: | 202011106303.3 | 申请日: | 2020-10-16 |
| 公开(公告)号: | CN112329548A | 公开(公告)日: | 2021-02-05 |
| 发明(设计)人: | 薛晗庆;潘红九;李昊星;陈超;窦小明;施卫科;雷净;李萌萌;杨飞;尹琼;底亚峰;皮彬睿 | 申请(专利权)人: | 北京临近空间飞行器系统工程研究所 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100076 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 章节 分割 方法 装置 存储 介质 | ||
1.一种文档章节分割方法,其特征在于,包括:
读取图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息;
根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元;
识别所述待识别单元中的文字信息,得到待处理文本;
将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节。
2.根据权利要求1所述的方法,其特征在于,所述输入图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息包括:
读取图片电子文档,确定页码页数信息;
读取所述图片电子文档对应的树形目录结构信息,所述树形目录结构信息包括层级信息,所述层级信息对应的章节标题信息和同级章节标题信息之间的分隔符;
判断所述分隔符是否正确,若不正确则提示重新输入所述树形目录结构信息;
读取所述图片电子文档对应的栏位信息;
判断所述栏位信息是否正确,若不正确则提示重新输入所述栏位信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元包括:
对所述图片电子文档中的每一张图片,执行以下操作:
读取当前图片对应的栏位信息;
若所述栏位信息的栏位数目小于1,则不执行栏位分割,否则进行栏位分割。
4.根据权利要求3所述的方法,其特征在于,所述栏位分割包括:
对所述当前图片进行图像二值化处理,得到第一图片;
确定所述第一图片中纵向的黑色像素分布信息和栏位数目信息,确定栏位符所处的位置信息;
根据所述栏位所处的位置信息,对当前图片进行分割,得到待识别单元。
5.根据权利要求1所述的方法,其特征在于,所述识别所述待识别单元中的文字信息,得到待处理文本包括:
对所述图片电子文档的所有待识别单元,执行以下操作:
识别所述待识别单元中的文本内容,确定所述文本内容的坐标位置;
存储所述坐标位置和所述文本内容。
6.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容包括:
判断所述正则匹配是否成功,若成功,则记录章节标题信息,所述章节标题的层级和对应的页面位置;
根据所述章节标题信息,所述章节标题的层级和对应的页面位置,记录所述章节的内容,并对章节对应的图片进行分割操作;
存储分割结果,所述分割结果包括章节标题信息,所述章节比套提包含的内容,所述章节的起始页码,所述章节的截止页码。
7.根据权利要求6所述的方法,其特征在于,所述根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节包括:
对所有章节按所述页码大小升序排序;
根据所述树形目录结构信息和所述起始页码的排列顺序,确定不同章节的内容。
8.一种文档章节分割装置,其特征在于,包括:
用户输入模块,用于输入图片电子文档,所述图片电子文档对应的树形目录结构信息和页内栏位信息;
页内栏位分割模块,用于根据所述页内栏位信息,将所述图片电子文档进行分割,得到待识别单元;
光学字符识别模块,用于识别所述待识别单元中的文字信息,得到待处理文本,确定所述文字信息的坐标位置;
章节标题匹配分割模块,将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
分割结果组织模块,用于根据所述章节标题匹配分割模块确定的章节内容和页码信息,确定所述图片电子文档的章节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京临近空间飞行器系统工程研究所,未经北京临近空间飞行器系统工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011106303.3/1.html,转载请声明来源钻瓜专利网。





