[发明专利]一种版式文件图文自动关联的方法及系统有效
| 申请号: | 200810239369.2 | 申请日: | 2008-12-11 |
| 公开(公告)号: | CN101419717A | 公开(公告)日: | 2009-04-29 |
| 发明(设计)人: | 徐剑波;董宁;王辉 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
| 主分类号: | G06T11/60 | 分类号: | G06T11/60 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 郭润湘 |
| 地址: | 100871北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 版式 文件 图文 自动 关联 方法 系统 | ||
1.一种版式文件图文自动关联方法,其特征在于,该方法包括:
A:从版式文件中获取图片块集合{P}和文章集合{A};
B:从反解版式文件后得到的图片块集合{P}中取出一个与已取图片块不同的图片块;
C:依次获取文章集合{A}中的文章,比较获取得到的文章是否与步骤B中取出的图片块近邻,如果没有文章与图片块近邻,直接转至步骤D;否则,则将此图片块设置为该文章的附图;
D:重复以上步骤,直至图片块集合{P}中的所有图片块被取过一次;
其中,在文章集合{A}中查找与图片块近邻的文章;比较获取得到的文章是否与取出的图片块近邻具体操作为:
(1.1)设置获取得到的图片块为P1,获取得到的文章为A1;新建文字块集合{T},从文章A1中获取文章的引题,标题,副题所对应的文字块,放置在文字块集合集合{T}中;
(1.2)依次获取文字块集合{T}中的文字块,设为T1,查看图片块P1是否与文字块T1近邻;如果近邻条件成立,记录图片块P1与文章的重叠度;如果近邻条件不成立,继续从文字块集合{T}中获取下一个文字块,继续同该图片块P1进行比较是否近邻;如果图片块P1和文字块集合{T}中任何一个文字块都不存在近邻的关系,那么执行步骤(1.3);
(1.3)比较图片块P1是否与文章正文近邻:新建文字块集合{L},如果文章正文对应的文字块的子块个数大于1,则获取得到该正文对应的文字块的所有子块,并放置在集合{L}中,依次获取集合{L}中的文字块,设为T1,查看图片块P1与文字块T1是否近邻;否则比较文章正文对应的文字块T1同图片块P1是否近邻;如果近邻条件成立,记录图片块P1与文章的重叠度;
其中,步骤(1.2)中查看图片块P1是否与文字块T1近邻的方法如下:
版面平均字体大小为所有的文字块的字号的平均值,设置为AvgFontSize;
设取到的图片块P1的左上角坐标为(X1,Y1),右下角坐标为(X1’,Y1’);图片块P1的宽度为W1=X1’X1,图片块P1的高度H1=Y1’-Y1;
获取到的文字块T1左上角坐标为(X2,Y2),右下角坐标为(X2’,Y2’);文字块T1的宽度为W2=X2’-X2,文字块T1的高度H2=Y2’-Y2,文字块T1的字体大小为f;
然后进行如下操作:
(1.2.1)计算图片块P1与文字块T1近邻的有效距离:
DistThreshold=C1*AvgFontSize+f*C2;
其中C1和C2为图片块P1与文字块T1近邻的调节系数,1<C1<5,0.1<C2<0.5;在实际的应用过程中,根据实际的需要调节C1和C2,得到图片块P1与文字块T1近邻的有效距离;
(1.2.2)计算图片块P1与文字块T1的重叠度:
垂直方向上的重叠度:
OverlapY=(min(Y1’,Y2’)-max(Y1,Y2))/(max(Y1’,Y2’)-min(Y1,Y2));
水平方向上的重叠度:
OverlapX=(min(X1’,X2’)-max(X1,X2))/(max(X1’,X2’)-min(X1,X2));
(1.2.3)计算图片块P1与文字块T1最小重叠度:
水平方向上的最小重叠是:
OverlapXMin=(min(X1’,X2’)-max(X1,X2))/min(X1’-X1,X2’-X2);
垂直方向上的最小重叠度:
OverlapYMin=(min(Y1’,Y2’)-max(Y1,Y2))/min(Y1’Y1,Y2’-Y2);
(1.2.4)计算文字块T1与图片块P1的重叠距离:
水平方向上的重叠距离DistX:
DistX=max(X1,X2)-min(X1’,X2’);
垂直方向上的重叠距离DistY:
DistY=max(Y1,Y2)-min(Y1’,Y2’);
其中max(a,b)表示取两者的较大值,min(a,b)表示取两者的较小值;
(1.2.5)判定如下条件是否其中一项成立:
a 1.OverlapX>Dx且OverlapY>Dy;
b 1.OverlapXMin>Dxmin且OverlapY>Dy;
c 1.OverlapYMin>Dymin且OverlapX>Dx;
d 1.OverlapYMin>Dymin 且OverlapXMin >Dxmin 且(X2’-X2)>C*AvgFontSize;其中C为文字块T1与图片块P1近邻的调节系数,2<C<8;
e1.文章标题对应的文字块的排版类型为水平排版时,且OverlapX>0且OverlapXMin>Dxmin且DistY<DistThreshold且Y2<Y1;
f1.文章标题对应的文字块的排版类型为垂直排版时,且OverlapY>0且OverlapYMin>Dymin且DistY<DistThreshold;
如果以上条件任何一项都成立,则表示图片块P1与文字块T1近邻;近邻成立的时候记录图片块P1与文章的重叠度;文章A1标题对应的文字块的排版类型为水平排版时,那么图片块P1与文章的重叠度为OverlapX,文章A1标题对应的文字块的排版类型为垂直排版时,图片块P1与文章的重叠度为OverlapY;
其中,步骤(1.3)中查看图片块P1与文字块T1是否近邻的方法具体为:
(1.3.1)计算图片块P1与文字块T1近邻的有效距离:
DistThreshold=C1*AvgFontSize;
其中C1为图片块P1与文字块T1近邻的调节系数,1<C1<5;在实际的应用过程中,根据实际的需要调节C1,得到图片块P1与文字块T1近邻的有效距离;
(1.3.2)利用步骤(1.2.2)的方法,计算图片块P1与文字块T1重叠度,得到OverlapY和OverlapX;
(1.3.3)利用步骤(1.2.3)的方法,计算图片块P1与文字块T1最小重叠 度,得到OverlapXMin和OverlapYMin;
(1.3.4)判定如下条件是否其中一项成立:
a2.OverlapX>Dx且OverlapY>Dy;
b2.OverlapXMin>Dxmin且OverlapY>Dy;
c2.OverlapYMin>Dymin且OverlapX>Dx;
d2.OverlapX>Dx且OverlapY>Dy且OverlapXMin*OverlapYMin>Dxymin且OverlapX*OverlapY>Dxy;
e2.OverlapXMin>Dxmin且OverlapYMin>Dymin;
如果以上条件任何一项都成立,则表示图片块P1与文字块T1近邻;近邻成立的时候记录图片块P1与文章的重叠度;重叠度为OverlapX和OverlapY中最大的一个;
所述步骤(1.2.5)和(1.3.4)中,Dx和Dy为文字块T1与图片块P1之间水平和垂直方向上的近邻重叠系数,0<Dx<1,0<Dy<1;Dxmin和Dymin为文字块T1与图片块P1之间水平和垂直方向上的最小近邻重叠系数,0<Dxmin<1,0<Dymin<1;所述步骤(1.3.4)中,Dxymin为最小公共重叠系数,0<Dxymin<1;Dxy为公共重叠系数,0<Dxy<1;在实际的应用过程中,根据实际的需要调节以上系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810239369.2/1.html,转载请声明来源钻瓜专利网。





