[发明专利]文档文件生成装置及文档文件生成方法有效
| 申请号: | 201510033797.X | 申请日: | 2015-01-23 |
| 公开(公告)号: | CN104809099B | 公开(公告)日: | 2018-03-23 |
| 发明(设计)人: | 平塚元规 | 申请(专利权)人: | 京瓷办公信息系统株式会社 |
| 主分类号: | G06F17/21 | 分类号: | G06F17/21 |
| 代理公司: | 北京汇思诚业知识产权代理有限公司11444 | 代理人: | 王刚,龚敏 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 文件 生成 装置 方法 | ||
技术领域
本发明涉及一种文档文件生成装置及文档文件生成方法,其通过对字符识别获取的原稿字符图像进行电子化,生成PDF(Portable Document Format)等格式的文档文件。
背景技术
PDF(Portable Document Format)格式是一种电子文件规格。在PDF格式的文件(以下称为PDF文件)中,文档内所用字体信息可以嵌入到该PDF文件自身内。因此,嵌入字体的PDF文件在其制作环境以外,亦可使用文档中嵌入的字体,按照编者的意愿进行描绘,即显示或印刷。
此外,在使用PDF对文档进行电子化时,为控制文件大小,通常使用高度压缩格式。即,对图像中包含的文字或图形等各个对象分别进行图像层(图层)识别,再对每个图层中包含的对象进行相应的图像处理和图像压缩。如此一来,可同时实现高清画质和高度压缩两种效果。
同时,作为使PDF中呈现的字符图像等更为清晰美观的一种方法,可对字符图像进行矢量化操作。然而,在将字符图像矢量化时,需要将矢量化后的字体数据的描绘处理载入PDF文件,这将使其相对文本数据变得过大。
为消除该缺陷,可考虑使用如专利文献1中所示的文档制作方法。即,专利文献1中提出的文档制作方法,将作为是否在文档文件中嵌入字体的衡量标准的字体名称及字号即字体大小的阈值作为表格输入,从处理对象的原数据中获取其使用的字体名称及字号,如果原数据中使用的字体名称及字号已登录在表格中,则将原数据中的字号与表格中的字号阈值进行比较,如存在字号大于阈值的字符,则决定将其字体嵌入。
发明内容
发明要解决的课题
上述专利文献1中,由于在制作可包含字体信息的文档信息时不仅关注字体名称,也关注字体字号即字体大小,因此制作的文档文件的大小可以缩小。
然而,如要使每个字体均具有字号等,那么每个字体都需要一个格式。随着注册的字体数量的增加,将会出现文件过大的问题。
本发明的目的在于,鉴于以上情况,提供一种文件文档生成装置及文档文件生成方法,在保持文件大小不变的情况下,制作出图像更为清晰美观的文档文件。
解决课题的方法
本发明的文档文件生成装置是一种生成将通过字符识别获取的原稿字符图像进行电子化的文档文件的装置,其特征在于具备:矢量化单元,其对所述字符图像进行矢量化;矢量化处理控制单元,其对该矢量化单元的矢量化处理进行控制;其中,所述矢量化处理控制单元在所述矢量化处理开始前的第1阶段,根据所述字符图像的字符数及字符大小计算出第1文件的大小,在所述矢量化处理执行中即第2阶段,通过比对由所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标,提取字符图像,并根据该字符图像的字符数及字符大小计算出第2文件的大小,在所述矢量化处理完成后的第3阶段,根据所述字符图像的字符数及所述矢量化的数据计算出第3文件的大小,在所述第1阶段至第3阶段中,所述第1至第3文件的大小小于所述原稿文件的大小,则生成写入有通过所述矢量化单元进行矢量化后的数据的矢量化文件。
还有,所述矢量化处理控制单元的特征在于,具有:计数单元,其对通过所述字符识别获取的原稿的字符图像,按照每个字符图像分别进行计数;文件大小计算比较单元,其计算所述文件大小并进行比较;以及,图像处理单元,其生成所述矢量化文件或文档文件;其中,所述文件大小计算比较单元,在所述第1阶段,通过所述字符图像的字符数与各个字符图像大小的乘积计算出第1文件,在所述第2阶段,通过比对所述字符识别获取的字符坐标与所述矢量化的数据中包含的字符坐标提取目标字符,并通过所述字符图像的字符数与该被提取的目标字符的字体大小的乘积计算出第2文件,在所述第3阶段,通过所述字符图像的字符数与所述矢量化的数据的乘积计算出第3文件的大小,并在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中将所述第1至第3文件的大小与所述原稿文件的大小进行比较;其中,所述图像处理单元,在所述第1阶段至第3阶段中,所述第1至第3文件的大小小于所述原稿文件的大小的情况下,将生成所述矢量化文件,在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中所述第1至第3文件的大小大于所述原稿文件的大小的情况下,将中断之后的处理,遵循所述原稿文件的文件格式生成文档文件。
还有,所述文件大小计算比较单元的特征在于,通过所述计数单元得出的各个字符图像的合计字符数与平均了各个字符图像大小的平均字符图像大小的乘积,计算所述第1文件的大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京瓷办公信息系统株式会社,未经京瓷办公信息系统株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510033797.X/2.html,转载请声明来源钻瓜专利网。





