[发明专利]基于查询接口连接图的深层网页数据源分类管理方法有效
申请号: | 200810024251.8 | 申请日: | 2008-05-16 |
公开(公告)号: | CN101320370A | 公开(公告)日: | 2008-12-10 |
发明(设计)人: | 崔志明;赵朋朋;方巍 | 申请(专利权)人: | 崔志明;赵朋朋;方巍 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创元专利商标事务所有限公司 | 代理人: | 陶海锋 |
地址: | 215001江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 查询 接口 连接 深层 网页 数据源 分类 管理 方法 | ||
技术领域
本发明涉及一种信息自动分类管理方法,具体涉及一种应用于深层网页数据源的分类管理方法。
背景技术
随着网络数据库的广泛应用,网络正在加速“深化”。互联网上有大量页面是由后台数据库动态产生,这部分信息不能直接通过静态链接获取,只能通过填写表单提交查询来获取,由于传统的网络爬虫(Crawler)不具有填写表单的能力,无法获取这些页面。因此,现有的搜索引擎搜索不出这部分页面信息,从而导致这部分信息对用户是隐藏、不可见的,我们称之为深层网络页面(Deep Web,又称为Invisible Web,Hidden Web)。Deep Web是一个与SurfaceWeb相对应的概念,最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎难以发现其信息内容的网络页面。Deep Web信息一般存储在数据库中,和静态页面相比通常信息量更大,主题更专一,信息质量更好,信息结构化更好,增长速度更快。研究表明,Deep Web信息是Surface Web信息的500倍,有近450,000个Deep Web站点。实现大规模Deep Web数据集成是方便用户使用Deep Web信息的一个有效途径。
Deep Web数据源具有异构性、动态性、内容覆盖领域广等特征,海量的Deep Web信息无法由爬虫程序自动获得,只能将查询接口作为Web数据库的唯一入口,用户通过填写表单提交查询,获得查询相关结果。为了能够自动有效地利用自由分布在Web上的丰富资源并加以集成,以帮助用户方便地找到合适的数据库并检索到隐藏的信息,Deep Web数据源的自动分类管理显得尤为重要。很显然利用手工方式来组织信息是一件非常困难的事,目前对查询接口特征的研究为我们目前的工作提供了契机,对查询接口特征的研究方法有待于进一步深入,寻找新的方法实现对Deep Web数据源自动分类管理。分类和聚类是数据集成中数据源分类管理的重要方法,目前对查询接口研究的途径大多局限于分类聚类方法中的Web特征和文本信息的挖掘,未涉及新的途径,图模型的引入为我们对Deep Web数据源分类管理的研究提供了新的途径,这是研究者尚未涉足的领域。
将图挖掘运用于Deep Web数据源分类管理研究中,具有如下优点:首先,Deep Web突出表现为异构性和自治性,大量的Deep Web内部涉及多个领域,因此属于同一领域的Web之间就存在一定程度上的关联,完全符合一个Web图模型的构造过程,而且每个在线数据库的定义是不同的,彼此之间是异构的,这就为我们的信息集成带来了不便,运用图挖掘手段就能挖掘出Web彼此之间的关联特征并进行分类。其次,图挖掘可以发掘很多隐藏的主题特征,那么利用图结构,我们也可以发现隐藏于Deep Web中的多个领域主题。
为了有效地利用自由分布在Web上的丰富资源,帮助用户方便地找到合适的数据库并检索到隐藏的信息,需要这样一项技术,可以实现针对大规模Deep Web数据源进行自动分类管理。
发明内容
本发明目的是提供一种自动的深层网页数据源分类管理方法,利用深层网页(Deep Web)数据源查询接口的丰富特征和图挖掘的方法,提高深层网页异构数据源的自动分类管理性能,以利于大规模数据集成的实现。
为达到上述目的,本发明的主要构思是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔志明;赵朋朋;方巍,未经崔志明;赵朋朋;方巍许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810024251.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:壁挂式灭蚊器
- 下一篇:微孔反应板全自动快速清洗机