[发明专利]用于将非文本内容对象化以及用于文档发现的方法和系统有效
| 申请号: | 201511030093.3 | 申请日: | 2015-12-31 |
| 公开(公告)号: | CN105740317B | 公开(公告)日: | 2019-05-14 |
| 发明(设计)人: | 柯·史蒂文·泰居 | 申请(专利权)人: | 柯尼卡美能达美国研究所有限公司 |
| 主分类号: | G06F16/178 | 分类号: | G06F16/178 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;陈炜 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 文本 内容 对象 以及 文档 发现 方法 系统 | ||
公开了用于将非文本内容对象化以及用于文档发现的方法和系统。用于将非原生文件内的非文本内容对象化的方法包括通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中标签以原生文件格式来限定对象的一部分。该方法还包括:基于对象化对象来生成包括对象化对象的组成信息的元数据,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。
技术领域
本申请涉及文档处理,特别地涉及对包括非文本内容的文档进行处理。
背景技术
原生(native)电子文件使得用户能够利用各种选项和功能容易地编辑文档。有时,原生文件(native file)被转换成不同的文件类型(即,转换成非原生文件(non-nativefile))。然而,文档的可编辑性在非原生格式下通常降低。为了说明,用户当使用原生文件时可能能够对文字处理文档中的表格的各个单元进行编辑。然而,如果用户正使用文件的非原生拷贝,则用户编辑表格的能力可能会受到限制。例如,用户可能不能对各个单元进行编辑,并且可能会被限制成简单地选择页面上的要放置整个表格的位置。
非原生文件的示例是物理文档(physical document)。物理文档在家庭、办公室和其他环境中普遍存在。很多物理文档是来自电子文档的打印输出(printout),诸如来自计算装置的文字处理应用的打印输出。有时,用户可能会期望使用计算装置来编辑物理文档。要这样做,用户可能首先需要用扫描仪或多功能打印机扫描物理文档,使得栅格化图像可以由能够识别所扫描的文档上的对象的软件来分析和处理。例如,可以使用光学字符识别(OCR)软件来执行诸如文本识别和转换的常规操作。然而,非文本对象不能够被识别和编辑。如果图像中的文本并非格式良好,则文本也可能是不能够被识别和编辑的。在这两种情况下,对象通常被作为位图对象处理或者被从原始扫描转换成矢量格式,并且在其原生格式下不能够被识别。
电子文档管理对大小机构而言均是具有挑战性的任务。当用户不能够定位原始文档时,成千上万小时和数百万美元被浪费在搜索错放的电子文档和重新创建文档的努力中。在一些情况下,用户可能持有文档的物理或其他非原生拷贝,但是不能够定位原始电子文档,该原始电子文档可能被存储在网络驱动器或数据储存库(例如企业内容管理(ECM)储存库)上的某处。用户可以重新创建文档,但是甚至在高质量重建的情况下,重建的文档仍可能与原始电子文档不同。
用户可能试图通过从网络驱动器或数据储存库中搜索来自文档文本的字符串来查找电子文档。例如,用户可以扫描硬拷贝(hardcopy)并且使用光学字符识别(OCR)软件,使得能够进行比较以在网络驱动器或EC储存库中发现匹配。然而,简单文本搜索可能不总是足够的。例如,如果文档缺少文本或如果文本并非格式良好,则由于OCR软件不能够识别非文本对象而无法执行搜索。作为另一示例,如果文档仅包含很常用的词,则该搜索可能会返回太多结果。
发明内容
在一个方面中,根据实施例,一种用于将非原生文件内的包括对象的非文本内容对象化的方法可以包括:通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中,该标签以原生文件格式来限定对象的一部分;基于对象化对象来生成包括对象化对象的组成信息的元数据,其中,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。
在另一方面中,根据实施例,一种用于将非原生文件内的包括对象的非文本内容对象化的系统可以包括计算机处理器和对象化器,该对象化器在计算机处理器上执行并且被配置成:通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中,该标签以原生文件格式来限定对象的一部分;基于对象化对象来生成包括对象化对象的组成信息的元数据,其中,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柯尼卡美能达美国研究所有限公司,未经柯尼卡美能达美国研究所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511030093.3/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





