[发明专利]用于从文档图象抽取标题的标题抽取装置及其方法无效
申请号: | 01135945.5 | 申请日: | 1996-09-04 |
公开(公告)号: | CN1365079A | 公开(公告)日: | 2002-08-21 |
发明(设计)人: | 胜山裕;直井聪 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06T3/40;G06T11/60;H04N1/387 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 吴丽丽 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文档 图象 抽取 标题 装置 及其 方法 | ||
1.一种用于从已经转换为图象数据的文档的文档图象抽取所需局部区域并用于作出识别的标题抽取装置,包括:
字符区域产生装置,用于产生包含由文档图象连接的黑色象素所组成的黑色象素连接区域的字符区域;
字符串区域产生装置,用于一致化由所述字符区域产生装置所产生的一个或者多个字符区域,并用于产生包含一个或者多个字符区域的字符串区域;以及
标题抽取装置,用于根据由该装置的所述字符串区域产生装置所产生的多个字符串区域的属性而抽取多个字符串区域的一个特定字符串区域作为标题区域,
其中所述字符区域产生装置用于获得黑色象素连接区域的外接矩形作为字符区域,
其中所述字符串区域产生装置用于产生文档图象中的外接矩形的边长的频率值的直方图,产生预定的频率值和对应于预定的频率值的最大边长的一个关系表,利用该关系表获得带有文档图象的高频率值的第一边的长度,并产生对应于该第一边长的字符串区域,
其中所述标题抽取装置用于抽取下划线属性或者框架属性作为字符串区域的一个属性,用于对应于所抽取的属性、每一字符串区域的位置、以及字符串区域之间的相对位置的关系的至少之一向每一字符串区域指定点数,并作为特定的字符串区域处理带有最高点数的字符串区域。
2.如同权利要求1中所述的标题抽取装置,
其中所述字符串区域产生装置用于判定对应于其频率值在关系表中明显变化的一个边的长度的第一边长。
3.如同权利要求1中所述的标题抽取装置,
其中所述字符串区域产生装置用于产生其外接矩形的高度或宽度用作为外接矩形的边长的直方图。
4.如同权利要求1中所述的标题抽取装置,
其中所述字符串区域产生装置用于应用该第一边长产生一个阈值并用于应用该阈值除去不必要的字符区域。
5.如同权利要求4中所述的标题抽取装置,
其中所述字符串区域产生装置用于应用该阈值除去表格或者照片的外接矩形。
6.如同权利要求1中所述的标题抽取装置,
其中所述标题抽取装置用于向带有下划线属性或者框架属性的字符串区域指定预定的点数。
7.如同权利要求1中所述的标题抽取装置,
其中所述标题抽取装置用于向其在第一方向上的中心坐标出现在文档图象的中心的邻域中的一个字符串区域指定预定的点数。
8.如同权利要求1中所述的标题抽取装置,
其中所述标题抽取装置用于向排布在上和下字符串区域之间与它们有间隔的一个字符串区域指定预定的点数。
9.如同权利要求1中所述的标题抽取装置,
其中所述标题抽取装置用于向在其左边没有另一个字符串区域的一个字符串区域指定预定的点数。
10.如同权利要求1中所述的标题抽取装置,
其中所述标题抽取装置用于在第一字符串区域和第二字符串区域没有被一个预定的阈值间隔开而满足一个预定的位置关系时判定排布在包含一个框线的第一字符串区域中的第二字符串区域具有框架属性。
11.一种用于从已经转换为图象数据的文档的文档图象抽取所需局部区域并用于作出识别的标题抽取方法,包括:
字符区域产生步骤,用于产生包含由文档图象连接的黑色象素所组成的黑色象素连接区域的字符区域;
字符串区域产生步骤,用于一致化由所述字符区域产生步骤所产生的一个或者多个字符区域,并用于产生包含一个或者多个字符区域的字符串区域;以及
标题抽取步骤,用于根据由该方法的所述字符串区域产生步骤所产生的多个字符串区域的属性而抽取多个字符串区域的一个特定字符串区域作为标题区域,
其中所述字符区域产生步骤用于获得黑色象素连接区域的外接矩形作为字符区域,
其中所述字符串区域产生步骤用于产生文档图象中的外接矩形的边长的频率值的直方图,产生预定的频率值和对应于预定的频率值的最大边长的一个关系表,利用该关系表获得带有文档图象的高频率值的第一边的长度,并产生对应于该第一边长的字符串区域,其中所述标题抽取步骤用于抽取下划线属性或者框架属性作为字符串区域的一个属性,用于对应于所抽取的属性、每一字符串区域的位置、以及字符串区域之间的相对位置的关系的至少之一向每一字符串区域指定点数,并作为特定的字符串区域处理带有最高点数的字符串区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01135945.5/1.html,转载请声明来源钻瓜专利网。