[发明专利]多页同类文档碎片的分组方法有效
申请号: | 201710209666.1 | 申请日: | 2017-03-31 |
公开(公告)号: | CN106991082B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 邢楠;刘军 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/10 | 分类号: | G06F40/10;G06F40/205;G06K9/00;G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 燕肇琪 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同类 文档 碎片 分组 方法 | ||
1.多页同类文档碎片的分组方法,其特征在于,包括以下步骤:
步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量;
步骤2、将文档的最左边碎片和最右边碎片进行分组对应;
步骤2、将文档的最左边碎片和最右边碎片进行分组对应的具体过程为:
将L中的文字块和R中的文字块划分为四种类型:第Ⅰ类:空白,第Ⅱ类:汉字,第Ⅲ类:含有句号,第Ⅳ类:含有逗号;设R中某一行的文字块的类型为i,L中该行下一行的文字块的类型为j,统计R中某一行的文字块与L中该行下一行的文字块之间的相关度Pji;
计算任意一个最右边碎片Ri与其他L之间的相关度SCji:
其中,m表示每个碎片中含有的文字块的总数量,Pji(k+1,k)表示R中第k的行文字块和L中第k+1的行文字块之间的相关度;
最大的SCji所对应的L,即为与Ri同组的L,按照公式(7),逐一将所有R和L进行分组对应;
步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片;
步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片的具体过程为:
对L和R以外的碎片中的文字块进行空白块识别:
其中,Hei为文字块中黑色像素点的个数;
计算每个碎片中空白块的数量占文字块的总数量的比例α:
其中,m表示每个碎片中文字块的总数量,n表示每个碎片中空白块的数量;
根据α值的大小,将碎片划分为密集碎片和非密集碎片:
其中,TH是阈值,TH取值范围是0.1~0.2;
步骤4、对非密集碎片进行分组;
步骤4、对非密集碎片进行分组的具体步骤为:
步骤4.1、对文档靠左部分的非密集碎片进行分组;
步骤4.1、对文档靠左部分的非密集碎片进行分组的具体过程为:
将任意一个最左边碎片设为起始碎片KL,进行以KL为起点的右近邻匹配:
首先,计算KL与待匹配的非密集碎片之间的匹配度集合S(k):
S(k)={Sk,1,Sk,2,…,Sk,j,…,Sk,n,} (11)
式中,Sk,j表示KL与第j个待测的非密集碎片之间的匹配度,1≤j≤n,n表示待匹配的非密集碎片的数量:
式中,m为每个碎片的文字行数,即每个碎片的文字块的总数量,Ci为两个碎片的第i行文字块之间的匹配度;
最大匹配度对应的非密集碎片即为与KL右近邻的非密集碎片v:
v=argmaxS(k) (13)
其次,匹配出与v右近邻的非密集碎片,进而,按照公式(11)、(12)、(13)逐一实现非密集碎片与其右近邻的碎片的匹配,当非密集碎片与一个密集碎片匹配上时,以KL为起点的右近邻匹配的过程结束,该密集碎片即为文档靠左部分的右边界碎片,设为LR;
逐一实现以其他最左边碎片为起点的右近邻匹配,完成文档靠左部分的非密集碎片的分组;
步骤4.2、对文档靠右部分的非密集碎片进行分组;
步骤4.2、对文档靠右部分的非密集碎片进行分组的具体过程为:
将任意一个最右边碎片设为起始碎片KR,在步骤4.1分组后剩下的非密集碎片中,找出所有非空白块的位置与KR完全相同的非密集碎片,即为与KR同组的非密集碎片;将KR转化为一个空白块与非空白块的集合KR',将每个与KR同组的非密集碎片分别转化为一个空白块与非空白块的集合,将与KR'同组的空白块与非空白块的集合逐个和KR'进行异或运算:
Wi表示任意一个与KR'同组的空白块与非空白块的集合,Yh是异或运算的结果,最大的Yh值对应的碎片即为文档靠右部分的左边界碎片,设为RL:
RL=argmax(Yh) (15)
按照公式(14)、(15),逐一找出与其他最右边碎片同组的非密集碎片,实现文档靠右部分的非密集碎片的分组;
步骤5、对密集碎片进行分组;
步骤5、对密集碎片进行分组的具体过程为:
将文档中的一对边界碎片,即靠左部分的右边界碎片LR和靠右部分的左边界碎片RL,设为(LR,RL),文档中所有的(LR,RL)构成集合I:
I={(LR1,RL1),(LR2,RL2),...,(LRi,RLi),...,(LRN,RLN)} (16)
其中,(LRi,RLi)表示第i对(LR,RL),N表示碎片的分组数量;
寻找并记录每对(LR,RL)中位置相同的空白块的具体位置和数量,将每对(LR,RL)按照空白块的数量进行排序,将包含空白块数量最多的(LR,RL)设为(LRj,RLj),从(LRj,RLj)开始分组,搜索与(LRj,RLj)具有相同位置及数量的空白块的密集碎片,即为与(LRj,RLj)同组的密集碎片,逐一实现密集碎片的分组。
2.根据权利要求1所述的多页同类文档碎片的分组方法,其特征在于,步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量的具体过程为:
将碎片按行间距水平分割成若干个文字块,将若干个文字块划分为5种抽象类型:x1类:空白,x2类:字符分布在左右两边,x3类:字符位于中间,x4类:字符位于右边,x5类:字符位于左边,设5种抽象类型的集合为C,C={x1,x2,x3,x4,x5,};
用贝叶斯分类器将每个文字块转化为5种抽象类型之一:
将文字块设为y,y={α1,α2,…,αn,},其中,αn表示文字块中第n个灰度特征,根据贝叶斯定理,如公式(1)所示,分别计算文字块为x1类的概率P(x1/y)、文字块为x2类的概率P(x2/y)、文字块为x3类的概率P(x3/y)、文字块为x4类的概率P(x4/y)、文字块为x5类的概率P(x5/y),由max{P(x1/y),P(x2/y),…,P(x5/y)}判断出文字块y的抽象类型,将每个碎片分别转换成文字块的抽象类型的集合;
其中,P(xi/y)表示文字块为xi类的概率,xi∈C,P(y)表示文字块出现的概率,P(y/xi)表示不同抽象类型下文字块出现的条件概率,P(xi)表示不同抽象类型出现的概率,P(y/xi)·P(xi)的计算如下:
其中,αn表示文字块中第n个灰度特征,P(αj/xi)表示xi类下文字块的第j个灰度特征出现的条件概率;
计算每个碎片中x1类文字块和x4类文字块的数量之和占文字块的总数量的比例Q14:
计算每个碎片中x1类文字块和x5类文字块的数量之和占文字块的总数量的比例Q15:
式中,Num表示每个碎片中文字块的总数量,Num1表示x1类文字块的数量,Num4表示x4类文字块的数量,Num5表示x5类文字块的数量;
将文档最左边的碎片设为L,判断一个碎片是否为L:
将文档最右边的碎片设为R,判断一个碎片是否为R:
其中,Qth是阈值,Qth取值范围是0.8~0.9;
统计文档中L的数量NL以及R的数量NR,碎片的分组数量为N,N=NL=NR。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710209666.1/1.html,转载请声明来源钻瓜专利网。