[发明专利]一种授权文档的检索方法和系统有效
| 申请号: | 200810135262.3 | 申请日: | 2008-08-05 |
| 公开(公告)号: | CN101408882A | 公开(公告)日: | 2009-04-15 |
| 发明(设计)人: | 孙肖峰;王绪胜;吴於茜 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京方正电子政务信息科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京汇泽知识产权代理有限公司 | 代理人: | 蒋雅洁;张 瑾 |
| 地址: | 100871北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 授权 文档 检索 方法 系统 | ||
技术领域
本发明涉及企业非结构化文档的检索技术,尤其涉及一种授权文档的检索 方法和系统。
背景技术
目前,各个企业都拥有大量的非结构化文档资源,例如word、pdf、ppt等 类型的文档,这些非结构化文档资源是企业资产很重要的一部分,所以越来越 多的企业采用了内容管理系统,实现对企业文档资源的有序管理,高效的检索 并再利用已有文档资源。
企业的文档资源有着自身的一些特点,包括:
(1)文档的数量相对较大,达到百万甚至千万。
(2)拥有比较规范的元数据信息,例如创建的部门、企业内的文档分类等。 但企业既希望通过这些元数据信息进行检索,同时又希望通过文档内容的关键 词进行检索。
(3)需要进行访问控制,不允许检索到没有授权的文档。
(4)文档资源的授权,往往要求比较灵活,多数情况下,是按照例如某种 文档分类等元数据进行授权的,但在一些特殊情况下,也允许对文档直接进行 单独授权。
访问文档资源,首先要通过文档的某个属性检索到相应的文档。描述文档 的属性可以分为两部分:结构化的元数据和非结构化的文本内容。对结构化的 元数据信息进行管理是数据库擅长的领域,而对非结构化的文本内容进行检索 是全文检索擅长的领域,二者各有自己的优势,所以,企业中所使用的内容管 理系统普遍采用数据库和全文检索相结合的技术,可以同时支持基于元数据和 文档内容对文档进行检索。
授权信息,作为元数据的一种,一般是存放在数据库中的,当基于内容 检索文档时,就需要结合数据库和全文检索系统,获取检索结果。数据库和全 文检索系统目前有以下三种结合方式:
A、分解文档查询请求为元数据(包含授权信息)和文档内容两部分,同 时向数据库和全文检索系统发送检索请求,之后,合并两个检索结果取交集。 这种方式的优点在于授权信息完全存放于数据库中,可以立即生效,但当两个 检索结果集都很大时,合并检索结果的效率较低,实用性也较低。
B、利用数据库本身的原生支持。一般大的数据库都提供了全文检索功能, 可以通过结构化查询语言(SQL)的扩充语言支持对元数据和文档内容的同时 检索,这种结合方式比方式A中外部合并结果要高效很多。但数据库自带的全 文检索功能的检索效率通常低于专用全文检索系统的效率,对中文支持也不够。
C、将元数据(包括授权信息)直接保存于全文检索系统中。在这种方式 下,对文档内容的检索效率是最高的。这种方式的具体实现过程一般为:将授 权信息保存在数据库中,建立索引时将授权信息转换为每个文档的授权,对其 进行全文索引,这样,检索文档内容时只要在全文检索系统中完成即可,不必 像方式A那样需要合并结果。但这种方式的缺点是:授权无法立即生效,需要 延迟一定的时间,同时,由于授权信息是不稳定数据,授权信息的改变将导致 大量的索引重建,降低了系统的实用性。
基于以上的三种结合方式,对非结构化的文档进行检索时,使用方式C检 索效率是最高的,但是,方式C同样具有大量索引重建、以及实用性差的缺点。
发明内容
本发明的主要目的在于提供一种授权文档的检索方法和系统,检索效率高, 授权生效的延迟时间短,且具有实用性。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种授权文档的检索方法,该方法包括:
A、在数据库中确定各个文档的至少包括文档标识ID、文档分类、关联媒 介标识的文档信息,文档分类与角色的关联,角色与用户的关联以及关联媒介 标识与角色的关联;全文检索系统从数据库中获取相应的文档信息,根据所述 文档信息建立各个文档对应的索引;
B、当在数据库中修改一文档对应的、所建立索引中包含的文档信息时, 在增量表中记录所述文档对应的文档ID;
C、全文检索系统读取增量表中的文档ID,根据文档ID读取数据库中对应 文档的文档信息,新建、或重建该文档ID对应文档的索引。
其中,步骤C之后该方法进一步包括:
D、当通过关键词检索文档时,根据用户与角色、角色与文档分类以及角 色与关联媒介标识的关联从数据库中获取当前用户有权限的文档分类与关联媒 介标识;
E、将从数据库中获取的文档分类与关联媒介标识、以及关键词作为全文 检索的查询条件,在全文检索系统中进行检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京方正电子政务信息科技有限公司,未经北大方正集团有限公司;北京大学;北京方正电子政务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810135262.3/2.html,转载请声明来源钻瓜专利网。





