[发明专利]多页同类文档碎片的分组方法有效
申请号: | 201710209666.1 | 申请日: | 2017-03-31 |
公开(公告)号: | CN106991082B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 邢楠;刘军 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/10 | 分类号: | G06F40/10;G06F40/205;G06K9/00;G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 燕肇琪 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同类 文档 碎片 分组 方法 | ||
多页同类文档碎片的分组方法,包括以下步骤:步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量;步骤2、将文档的最左边碎片和最右边碎片进行分组对应;步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片;步骤4、对非密集碎片进行分组;步骤5、对密集碎片进行分组。基于文档最左边碎片和最右边碎片中文字的布局特性,准确获得分组的数量;同时,根据段落文字的相关性以及文字在文档不同区域的特点,将最左边碎片和最右边碎片进行对应,将碎片按照所处区域进行分组,解决了现有技术中存在的同类文档碎片分组困难、分组准确率低的问题。
技术领域
本发明属于文本信息处理技术领域,涉及一种多页同类文档碎片的分组方法。
背景技术
将来源于不同文档页的碎纸机碎片恢复成原始文档是一个复杂的技术问题,来源不同、数量众多的的碎片相互混杂,碎片难以辨别,这对文档的恢复带来极大的困难。碎片分组是将数量众多的碎片按照其来源加以区别,划分成若干个不同的组,以便在组内进行碎片拼接,减小碎片搜索的难度,提高文档恢复的准确率。
在现实情况中,被粉碎的文件通常包含多页文档。由于这些文档具有统一的页面格式,他们在视觉上几乎没有差异,这些碎片被称为同类碎片,同类碎片之间具有极高的相似性,现有碎片分组技术难以处理这类碎片。然而基于同类碎片在现实中存在的广泛性,同类碎片的分组,对于文档恢复,特别是大规模文档恢复具有十分重要的意义。碎纸机能够产生条状、块状等不同类型的碎片,目前在实际应用中大多数的碎片为条状碎片,因此,解决条状碎片的分组问题,对破碎文档的恢复具有重要的现实意义。
发明内容
本发明的目的是提供一种多页同类文档碎片的分组方法,解决了现有技术中存在的同类文档碎片分组困难、分组准确率低的问题。
本发明所采用的技术方案是,多页同类文档碎片的分组方法,包括以下步骤:
步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量;
步骤2、将文档的最左边碎片和最右边碎片进行分组对应;
步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片;
步骤4、对非密集碎片进行分组;
步骤5、对密集碎片进行分组。
步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量的具体过程为:
将碎片按行间距水平分割成若干个文字块,将若干个文字块划分为5种抽象类型:x1类:空白,x2类:字符分布在左右两边,x3类:字符位于中间,x4类:字符位于右边,x5类:字符位于左边,设5种抽象类型的集合为C,C={x1,x2,x3,x4,x5,};
用贝叶斯分类器将每个文字块转化为5种抽象类型之一:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710209666.1/2.html,转载请声明来源钻瓜专利网。