[发明专利]多页同类文档碎片的分组方法有效

专利信息
申请号: 201710209666.1 申请日: 2017-03-31
公开(公告)号: CN106991082B 公开(公告)日: 2020-06-26
发明(设计)人: 邢楠;刘军 申请(专利权)人: 西安理工大学
主分类号: G06F40/10 分类号: G06F40/10;G06F40/205;G06K9/00;G06K9/62
代理公司: 西安弘理专利事务所 61214 代理人: 燕肇琪
地址: 710048*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 同类 文档 碎片 分组 方法
【权利要求书】:

1.多页同类文档碎片的分组方法,其特征在于,包括以下步骤:

步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量;

步骤2、将文档的最左边碎片和最右边碎片进行分组对应;

步骤2、将文档的最左边碎片和最右边碎片进行分组对应的具体过程为:

将L中的文字块和R中的文字块划分为四种类型:第Ⅰ类:空白,第Ⅱ类:汉字,第Ⅲ类:含有句号,第Ⅳ类:含有逗号;设R中某一行的文字块的类型为i,L中该行下一行的文字块的类型为j,统计R中某一行的文字块与L中该行下一行的文字块之间的相关度Pji

计算任意一个最右边碎片Ri与其他L之间的相关度SCji

其中,m表示每个碎片中含有的文字块的总数量,Pji(k+1,k)表示R中第k的行文字块和L中第k+1的行文字块之间的相关度;

最大的SCji所对应的L,即为与Ri同组的L,按照公式(7),逐一将所有R和L进行分组对应;

步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片;

步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片的具体过程为:

对L和R以外的碎片中的文字块进行空白块识别:

其中,Hei为文字块中黑色像素点的个数;

计算每个碎片中空白块的数量占文字块的总数量的比例α:

其中,m表示每个碎片中文字块的总数量,n表示每个碎片中空白块的数量;

根据α值的大小,将碎片划分为密集碎片和非密集碎片:

其中,TH是阈值,TH取值范围是0.1~0.2;

步骤4、对非密集碎片进行分组;

步骤4、对非密集碎片进行分组的具体步骤为:

步骤4.1、对文档靠左部分的非密集碎片进行分组;

步骤4.1、对文档靠左部分的非密集碎片进行分组的具体过程为:

将任意一个最左边碎片设为起始碎片KL,进行以KL为起点的右近邻匹配:

首先,计算KL与待匹配的非密集碎片之间的匹配度集合S(k):

S(k)={Sk,1,Sk,2,…,Sk,j,…,Sk,n,} (11)

式中,Sk,j表示KL与第j个待测的非密集碎片之间的匹配度,1≤j≤n,n表示待匹配的非密集碎片的数量:

式中,m为每个碎片的文字行数,即每个碎片的文字块的总数量,Ci为两个碎片的第i行文字块之间的匹配度;

最大匹配度对应的非密集碎片即为与KL右近邻的非密集碎片v:

v=argmaxS(k) (13)

其次,匹配出与v右近邻的非密集碎片,进而,按照公式(11)、(12)、(13)逐一实现非密集碎片与其右近邻的碎片的匹配,当非密集碎片与一个密集碎片匹配上时,以KL为起点的右近邻匹配的过程结束,该密集碎片即为文档靠左部分的右边界碎片,设为LR

逐一实现以其他最左边碎片为起点的右近邻匹配,完成文档靠左部分的非密集碎片的分组;

步骤4.2、对文档靠右部分的非密集碎片进行分组;

步骤4.2、对文档靠右部分的非密集碎片进行分组的具体过程为:

将任意一个最右边碎片设为起始碎片KR,在步骤4.1分组后剩下的非密集碎片中,找出所有非空白块的位置与KR完全相同的非密集碎片,即为与KR同组的非密集碎片;将KR转化为一个空白块与非空白块的集合KR',将每个与KR同组的非密集碎片分别转化为一个空白块与非空白块的集合,将与KR'同组的空白块与非空白块的集合逐个和KR'进行异或运算:

Wi表示任意一个与KR'同组的空白块与非空白块的集合,Yh是异或运算的结果,最大的Yh值对应的碎片即为文档靠右部分的左边界碎片,设为RL

RL=argmax(Yh) (15)

按照公式(14)、(15),逐一找出与其他最右边碎片同组的非密集碎片,实现文档靠右部分的非密集碎片的分组;

步骤5、对密集碎片进行分组;

步骤5、对密集碎片进行分组的具体过程为:

将文档中的一对边界碎片,即靠左部分的右边界碎片LR和靠右部分的左边界碎片RL,设为(LR,RL),文档中所有的(LR,RL)构成集合I:

I={(LR1,RL1),(LR2,RL2),...,(LRi,RLi),...,(LRN,RLN)} (16)

其中,(LRi,RLi)表示第i对(LR,RL),N表示碎片的分组数量;

寻找并记录每对(LR,RL)中位置相同的空白块的具体位置和数量,将每对(LR,RL)按照空白块的数量进行排序,将包含空白块数量最多的(LR,RL)设为(LRj,RLj),从(LRj,RLj)开始分组,搜索与(LRj,RLj)具有相同位置及数量的空白块的密集碎片,即为与(LRj,RLj)同组的密集碎片,逐一实现密集碎片的分组。

2.根据权利要求1所述的多页同类文档碎片的分组方法,其特征在于,步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量的具体过程为:

将碎片按行间距水平分割成若干个文字块,将若干个文字块划分为5种抽象类型:x1类:空白,x2类:字符分布在左右两边,x3类:字符位于中间,x4类:字符位于右边,x5类:字符位于左边,设5种抽象类型的集合为C,C={x1,x2,x3,x4,x5,};

用贝叶斯分类器将每个文字块转化为5种抽象类型之一:

将文字块设为y,y={α12,…,αn,},其中,αn表示文字块中第n个灰度特征,根据贝叶斯定理,如公式(1)所示,分别计算文字块为x1类的概率P(x1/y)、文字块为x2类的概率P(x2/y)、文字块为x3类的概率P(x3/y)、文字块为x4类的概率P(x4/y)、文字块为x5类的概率P(x5/y),由max{P(x1/y),P(x2/y),…,P(x5/y)}判断出文字块y的抽象类型,将每个碎片分别转换成文字块的抽象类型的集合;

其中,P(xi/y)表示文字块为xi类的概率,xi∈C,P(y)表示文字块出现的概率,P(y/xi)表示不同抽象类型下文字块出现的条件概率,P(xi)表示不同抽象类型出现的概率,P(y/xi)·P(xi)的计算如下:

其中,αn表示文字块中第n个灰度特征,P(αj/xi)表示xi类下文字块的第j个灰度特征出现的条件概率;

计算每个碎片中x1类文字块和x4类文字块的数量之和占文字块的总数量的比例Q14

计算每个碎片中x1类文字块和x5类文字块的数量之和占文字块的总数量的比例Q15

式中,Num表示每个碎片中文字块的总数量,Num1表示x1类文字块的数量,Num4表示x4类文字块的数量,Num5表示x5类文字块的数量;

将文档最左边的碎片设为L,判断一个碎片是否为L:

将文档最右边的碎片设为R,判断一个碎片是否为R:

其中,Qth是阈值,Qth取值范围是0.8~0.9;

统计文档中L的数量NL以及R的数量NR,碎片的分组数量为N,N=NL=NR

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710209666.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top