[发明专利]一种基于多数据源的企业搜索引擎技术无效
申请号: | 201010550794.0 | 申请日: | 2010-11-19 |
公开(公告)号: | CN102033910A | 公开(公告)日: | 2011-04-27 |
发明(设计)人: | 黄震奇;江勇;林乐然;罗志伟;陈华光 | 申请(专利权)人: | 福建富士通信息软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 350013 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于多数据源的福富企业搜索引擎技术将企业内部、外部数据统一于同一平台,搜索不同来源地数据信息,支持多种数据格式,包括结构化数据(各种关系型数据库,如Oracle、Mysql、SQL Server等)、非结构化数据(如word、excel、ppt、pdf等)和半结构化数据(如xml等)。首先使用不同的数据采集方式搜集各类信息,对于采集到的信息对象,先要进行一定的智能处理,然后再建立索引,该系统支持按字索引、按词索引、按关键词索引等索引策略,能够适应不同应用环境的需求。之后,将在搜索引擎的中心数据库中进行统一的存储管理,该系统具备强大的结构化、非结构化和半结构化信息的处理和检索能力,它是整个搜索引擎的数据仓储中心,也是整个搜索引擎的检索动力核心,最终的搜索结果在门户页面上展示。 | ||
搜索关键词: | 一种 基于 多数 企业 搜索引擎 技术 | ||
【主权项】:
一种基于多数据源的福富企业搜索引擎技术,其特征在于系统同时支持企业内部数据(数据库数据)、外部数据处理(网页、邮件等数据):复杂的应用系统环境下,企业内部数据知识管理系统与各业务系统的数据融合将采用几种方式:界面层耦合、业务层耦合、数据层耦合。经过和业务系统的耦合,对于这些企业内的数据,可以通过简单的系统配置和一定的数据更新策略来完成数据的采集和建立索引工作。对于企业外的数据搜索处理,通过页面抓取技术将目标网页抓取,解析页面内容并索引处理,经过处理后的Internet数据和企业内的数据一起进行分类。当企业员工使用搜索查询相关信息时,可以同时得到企业内和企业外的相关数据,通过定时抓取网页更新索引数据,保证企业员工获得最新的数据。具体实现方式是:关系型数据库采集福富企业搜索引擎引入了数据网关来实现各类关系数据库与搜索引擎中心数据库之间的数据关联和同步。数据网关包含文档格式分析和文档格式标签过滤模块,该模块对关系型数据库中中的文件内容进行分析并存储到中心数据库。因此数据网关可以对各种关系型数据库中的格式化文档进行全文检索。网页数据采集福富企业搜索引擎提出了一种基于反向链接的分层式上下文模型,用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心为目标网页,将网页依据指向目标网页的物理跳数进行层次划分,通过对链接的遍历来完成采集。网站划分情况分为按域名划分和按IP地址划分两种。在分布式情况下,通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,同时,根据不同文件在各个站点上的分布情况,构造文档图,然后进行网页采集。基于网页的链接分析算法的基本思想是通过网页分割算法将网页分为不同的网页块,然后对这些网页块建立链接矩阵,通过对连接矩阵的遍历来完成网页数据采集。文件数据采集对于文件系统中的各类非结构化文档,通过文件数据采集模块进行信息抽取和处理。把本地各种类型的文档资料加载到中心数据库,从而为实现后续的检索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建富士通信息软件有限公司,未经福建富士通信息软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010550794.0/,转载请声明来源钻瓜专利网。
- 上一篇:绳索攀爬器
- 下一篇:一种具有全折叠结构的跑步机