[发明专利]文档处理方法及其装置有效
| 申请号: | 201110192577.3 | 申请日: | 2011-07-01 |
| 公开(公告)号: | CN102855264A | 公开(公告)日: | 2013-01-02 |
| 发明(设计)人: | 常兰兰;孙俊;何源;于浩;直井聪 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/00 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;周涛 |
| 地址: | 日本神*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 处理 方法 及其 装置 | ||
技术领域
本申请总体上涉及图像处理的领域,更具体而言,涉及一种文档处理方法及其装置。
背景技术
文档标题通常隐含了文档的主题,对于分析、理解以及管理文档有重要意义。在文档系统中,通常将具有相同标题的文档划归一类文档。在传统方法中,通常提供了一种根据人工生成的模板来定位标题的位置和内容,从而对文档分类,然而此方法并不适合应用于大规模数据处理。此外,现有技术中还存在一种基于OCR识别的文档分类方法,其首先借助OCR识别检测文档的标题字符串并且基于所识别的文档标题对文档进行分类,然而此方法应用领域单一,并不适于包含多种标题的文档。
发明内容
在下文中将给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本申请的实施例,在对文档进行处理时,对于多个输入的文档图像中的每个文档图像:检测与初始关键字符相匹配的初始关键字符图像,所述初始关键字符是所述多个文档图像的标题中的关键字符;针对每个初始关键字符图像,提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像,其中初始关键字符图像与相邻字符图像构成准标题区域;计算每个准标题区域的置信度值,并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选,其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性;基于从所述多个文档图像获得的标题候选对文档图像进行聚类,从而得到具有同类标题的文档分类。
这样,通过上述文档处理,能够实现从对文档中每个文档图像提取标题候选。基于所提出的标题候选,对所述多个文档图像获得的标题候选进行聚类,从而得到具有同类标题的文档分类。由此,显著缩减了文档处理的耗时。而且,基于上述文档处理,能够实现对大规模文档进行处理,尤其是分类和归档。
根据本申请的实施例还提出了一种文档处理装置,其包括:检测单元,其配置成对于多个输入的文档图像中的每个文档图像检测与初始关键字符相匹配的初始关键字符图像,其中所述初始关键字符是所述多个文档图像的标题中的关键字符;提取单元,其配置成针对每个初始关键字符图像,提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像,其中初始关键字符图像与相邻字符图像构成准标题区域;选择单元,其配置成计算每个准标题区域的置信度值,并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选,其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性;聚类单元,其配置成基于从所述多个文档图像获得的标题候选对文档图像进行聚类,从而得到具有同类标题的文档分类。借助该文档处理装置,显著缩减了文档处理的耗时。而且借助该文档处理装置,能够实现对大规模文档进行处理,尤其是分类和归档。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明的一个实施例的文档处理方法的流程图,
图2示出了根据本发明的另一实施例的文档处理方法的流程图,
图3示出了图2所示的根据本发明的实施例的文档处理方法的一个改进方案的流程图,
图4示出了根据本发明的另一实施例的文档处理方法的流程图,
图5示出了图4所示的根据本发明的实施例的文档处理方法的一个改进方案的流程图,
图6示出了根据本发明的另一实施例的文档处理方法的流程图,
图7示出了图6所示的根据本发明的实施例的文档处理方法的一个改进方案的流程图,
图8a示出了根据本发明的一个实施例的文档处理方法的实例,
图8b示出了图8a中所示的文档的实例,
图9示出了根据本发明的一个实施例的文档处理装置的示意性结构图;
图10示出了根据本发明的另一实施例的文档处理装置示意性结构图;以及
图11示出了可用于作为实施根据本发明的实施例的信息处理设备的示意性框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110192577.3/2.html,转载请声明来源钻瓜专利网。





