[发明专利]文档图像处理装置和文档图像处理方法有效

专利信息
申请号: 200710129606.5 申请日: 2007-07-23
公开(公告)号: CN101354703A 公开(公告)日: 2009-01-28
发明(设计)人: 吴波;窦建军;乐宁;吴亚栋;贾靖 申请(专利权)人: 夏普株式会社
主分类号: G06F17/30 分类号: G06F17/30;G06K9/72;G06K9/46
代理公司: 北京集佳知识产权代理有限公司 代理人: 雒运朴;徐谦
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 图像 处理 装置 方法
【权利要求书】:

1.一种文档图像处理装置,其特征在于,具有:

字形特征字典,其以单个文字为单位储存有文字图像的图像特征;

文字列抽出部,其以由两个或两个以上文字构成的文字列为单位,抽取出所输入的文档图像中存在的文字图像;

图像特征抽出部,其将由上述文字列抽出部抽取出的文字列的文字图像以1个文字为单位进行分割,并抽出各文字图像的图像特征;

特征匹配部,其以由上述图像特征抽出部抽出的文字图像的图像特征为基础,从上述字形特征字典中,按照图像特征的匹配度从高到低的顺序选择N个文字图像作为候补文字,其中N为N>1的整数,在将上述文字列的文字数设为M个时,其中M为M>1的整数,制作M×N维的第1索引矩阵,并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,将上述第1索引矩阵的第1列的候补文字与同一行的其它候补文字进行替换,而制作出调整成有意义的文字列的第2索引矩阵;

索引信息储存部,其将由上述特征匹配部制作的第2索引矩阵与上述所输入的文档图像相对应地进行储存;

检索部,其在检索时,以所输入的检索式中的构成检索关键词的1个检索文字为单位,检索上述索引信息储存部,而取出具有包含检索文字的第2索引矩阵的文档图像。

2.根据权利要求1所述的文档图像处理装置,其特征在于,上述特征匹配部,使用双字母组模型或多字母组模型作为语言模型,来进行候补文字列的词汇解析。

3.根据权利要求1所述的文档图像处理装置,其特征在于,上述文字列抽出部抽取出上述被输入的文档图像中的标题区域。

4.根据权利要求1所述的文档图像处理装置,其特征在于,上述文字列抽出部基于连通域统计分析的方法来抽取出文档图像中的重要区域。

5.根据权利要求1所述的文档图像处理装置,其特征在于,上述图像特征抽出部利用网格方向特征和文字图像外围特征的组合,来抽出文字图像的图像特征。

6.根据权利要求1所述的文档图像处理装置,其特征在于,上述特征匹配部将所抽出的文字图像的图像特征与在上述字形特征字典中储存的全部文字图像进行匹配,并选择候补文字。

7.根据权利要求1所述的文档图像处理装置,其特征在于,上述特征匹配部选择的候补文字数N是可变更的。

8.根据权利要求1所述的文档图像处理装置,其特征在于,上述检索部,从具有构成检索关键词的各检索文字与索引矩阵的相关度高的第2索引矩阵的文档图像中,按顺序进行取出。

9.根据权利要求1所述的文档图像处理装置,其特征在于,

对上述索引矩阵的各要素,设定有与位置相应的相关值,

上述检索部具有:

索引矩阵检索处理部,其以构成检索关键词的1个检索文字为单位检索第2索引矩阵,而检索出包含检索文字的第2索引矩阵,并将该第2索引矩阵内的检索文字的匹配位置的信息,与具有第2索引矩阵的文档图像的信息一同储存在保存部中;

相关度计算部,其根据在上述保存部中储存的匹配位置的信息,累计各检索文字的相关值,并计算出检索关键词与第2索引矩阵的相关度;

顺序决定部,其基于上述相关度计算部的计算结果,来决定文档图像的取出顺序。

10.根据权利要求9所述的文档图像处理装置,其特征在于,上述相关度计算部,在根据上述匹配位置的信息,而判断为构成检索关键字的检索文字与索引矩阵中的相邻行相匹配时,对相邻的各行的相关值,在利用行的相关度加权因数进行了加权的基础上,进行累计。

11.根据权利要求9所述的文档图像处理装置,其特征在于,上述第2索引矩阵的各要素设定的相关值是可变更的。

12.根据权利要求10所述的文档图像处理装置,其特征在于,上述行的相关度加权因数是可变更的。

13.根据权利要求1所述的文档图像处理装置,其特征在于,具有使用上述图像特征抽出部来制作上述字形特征字典的字形特征字典制作部。

14.一种文档图像处理方法,其特征在于,具有:

文字列抽出步骤,以由两个或两个以上文字构成的文字列为单位,抽出所输入的文档图像中存在的文字图像;

图像特征抽出步骤,将在上述文字列抽出步骤中抽出的文字列的文字图像以1个文字为单位进行分割,并抽出各文字图像的图像特征;

特征匹配步骤,以在上述图像特征抽出步骤中抽出的文字图像的图像特征为基础,从以单个文字为单位储存有文字图像的图像特征的字形特征字典中,按照图像特征的匹配度从高到低的顺序选择N个文字图像作为候补文字,其中N为N>1的整数,并且在将上述文字列的文字数设为M个时,其中M为M>1的整数,制作M×N维的索引矩阵,并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,将上述第1索引矩阵的第1列的候补文字与同一行的其它候补文字进行替换,而制作出调整成有意义的文字列的第2索引矩阵;

索引信息储存步骤,将在上述特征匹配步骤中制作的第2索引矩阵,与上述所输入的文档图像相对应地进行储存;

检索步骤,在检索时,以所输入的检索式中的构成检索关键词的1个检索文字为单位,检索在上述索引信息储存步骤中储存的索引信息,并取出具有第2索引矩阵的文档图像,该第2索引矩阵包含检索文字。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710129606.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top