[发明专利]信息处理装置和信息处理方法有效

专利信息
申请号: 201210380729.7 申请日: 2012-10-09
公开(公告)号: CN103218352B 公开(公告)日: 2017-11-10
发明(设计)人: 今野裕也 申请(专利权)人: 富士施乐株式会社
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京三友知识产权代理有限公司11127 代理人: 李辉,王伶
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息处理 装置 方法
【说明书】:

技术领域

本发明涉及信息处理装置和信息处理方法。

背景技术

日本特许第3578618号公报(专利文献1)公开了一种文档分割装置,该文档分割装置通过不仅考虑相邻文档的关系而且考虑与该文档相关联的广域的关系来实现有效分割文档的目标,并且该文档分割装置设置有:语言要素分出单元,该语言要素分出单元用于以段落、句子以及行为单位从电子文档中分出语言要素;语言要素间关联度评估单元,该语言要素间关联度评估单元用于评估任何两个语言要素(例如,具有公共字符或者单词)的关联度;语言要素间关联度矩阵取得单元,该语言间要素关联矩阵取得单元通过利用这种语言要素间关联度评估单元来取得全部语言要素的关联度;以及矩阵拆分单元,该矩阵拆分单元用于将这种语言要素间关联度矩阵取得单元提供的语言要素间关联度矩阵分割为具有高关联度的部分矩阵的排列。由此,可以与通过部分矩阵进行的拆分相应地来拆分文档。

日本特许第3767180号公报(专利文献2)公开了一种用于分析文档结构的方法和装置、以及存储文档结构分析程序的存储介质,其目标在于即使当不包括项目标记或者未写有特定标记等时也可以通过使用每个字符串的长度或者行首的位置信息来分析标记项目和文本中的简单句的文档结构,其中,输入待分析的文档,检查在所述文档的行首上是否存在引用符,当存在引用符时,删除该引用符,检测特定项目标记所要使用的包括文档中的日期、场所、期限的字符串,并且基于检测到的项目标记的特征来检测任意项目标记,将检测到所述项目标记的行的行首位置和未检测到项目标记的后续行的行首位置指定为项目范围,后续行与被判断为项目范围以外的行相连接,以句子为单位分割各行,将特定项目、任意项目以及指示句子的标签附加至文档并输出。

发明内容

本发明的目的在于提供一种信息处理装置,该信息处理装置在将文档中的区域分割为段落区域或者项目区域的情况下,在指示项目的字符与预定的字符不同时可以抑制错误分割。

根据本发明的第一方面,提供了一种信息处理装置,该信息处理装置包括:取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与区域中的行有关的信息,以及字符信息是与行中的字符有关的信息;判断单元,该判断单元基于所述取得单元取得的行信息来判断包括该行信息所指示的行的区域是否左对齐;第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进;第二分割单元,该第二分割单元基于所述分析单元的分析结果将所述判断单元判断为左对齐的所述区域分割为段落区域或者项目区域;以及输出单元,该输出单元针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。

根据本发明的第二方面,在根据第一方面的信息处理装置中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元可基于与行信息所指示的行的下一行中的字符有关的字符信息来改变该行信息,随后可以判断包括该行信息指示的所述行的区域是否左对齐。

根据本发明的第三方面,在根据第一或者第二方面的信息处理装置中,所述判断单元可基于所述取得单元所取得的行信息,来计算所述行信息所指示的行的中点坐标,并且可以基于以下坐标中的一个或者更多个坐标来判断所述区域是否左对齐:所述区域中的所述行的行首坐标、所述中点坐标以及行尾坐标。

根据本发明的第四方面,在根据第一方面至第三方面中的任一方面的信息处理装置中,所述第一分割单元可基于位于行首或者行尾中的一个以上字符的字符串是否满足预定的字符串条件,来将所述区域分割为段落区域或者项目区域。

根据本发明的第五方面,在根据第一方面至第四方面中的任一方面的信息处理装置中,所述第一分割单元可以基于由所述区域中的行的字符数量所预定的值是否满足预定条件,来将所述区域分割为段落区域或者项目区域。

根据本发明的第六方面,在根据第一方面至第五方面的任一方面的信息处理装置中,所述分析单元可以通过基于从区域左端至该区域中各行的左端之间的距离,将各行分类为缩进行和未缩进行,来分析行的缩进。

根据本发明的第七方面,在根据第六方面的信息处理装置中,第二分割单元可以基于行中包括的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,来将所述区域分割为段落区域或者项目区域。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士施乐株式会社,未经富士施乐株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210380729.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top