[发明专利]网页类特征向量的构建方法及其构建器无效

专利信息
申请号: 201210445795.8 申请日: 2012-11-09
公开(公告)号: CN102982114A 公开(公告)日: 2013-03-20
发明(设计)人: 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春;张洋劼 申请(专利权)人: 同济大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海天协和诚知识产权代理事务所 31216 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 特征向量 构建 方法 及其
【说明书】:

技术领域

发明涉及对互联网信息资源的管理与组织,具体涉及对网页类的特征向量的构建的方法。 

背景技术

随着社会信息化的发展,海量数据已经出现在卫星遥感、医学、逆向工程等各个社会领域。如何存储、提取、处理、分析这些海量数据已经成为了科研人员面临的一个重要问题。而网络上信息资源数量多而庞杂、变化快而不稳定、类型多、范围广、具有超文本链接、质量参差不齐。面对这样的网络信息资源,需要一种有力的方式,能将各种资源进行有效的组织与管理。面对互联网海量规模的信息资源,搜索引擎已经成为人们生活和工作中必不可少的信息获取工具,然而搜索引擎仅仅是将用户的搜索词相关的网页给予展示,并没有做到对互联网中资源的组织与管理。 

互联网中网页数量的迅速膨胀,搜索引擎需要从海量的网页中迅速、准确的搜索出用户感兴趣的信息。文本分类技术在信息检索领域得到应用。网页格式灵活、内容丰富、来源广泛以及增长速度极快等特点对网页分类和聚类技术提出了更高的要求。拥有海量数据的因特网也为网页分类的研究提供了丰富的实验平台。因此, 网页分类相关技术的研究正逐渐成为继文本分类之后机器学习领域的研究热点。 

发明内容

具体实施方式 

以下结合附图对本发明技术方案作进一步介绍。

整个信息服务服务系统建立在传统的搜索引擎的基础之上,即:首先从互联网上抓取网页,将网页建立数据库进行存储,然后对网页建立倒排索引,保证传统的搜索引擎功能能够实现;其次,针对用户找信息难的问题,信息服务服务系统采用两个方面进行解决:(1)对用户需求进行分析和理解,最大限度的提供给用户有价值的信息;(2)对网页进行整理分类,提供给用户一套服务方案。首先根据DMOZ的人工分类目录,提取出类,每个类由类名和特征向量组成,具体如图5所示。然后,对抓取的网页按照提取到的类标准对网页进行分类,根据类中的网页之间的互相链接关系上升为类与类之间的链接关系,从而确定出类与类之间的一套索引网,进行存储,最后根据用户的输入在索引网络上抽取出不同的服务方案,返回给用户。 

整个信息服务服务系统的工作流程如图4所示,该信息服务服务系统的具体功能为: 

一方面,首先信息收集子系统(信息收集子系统包括爬虫和本发明的网页特征向量构建器)中使用爬虫对互联网的信息进行收集,再利用分类器对爬取的信息进行分类整理,然后根据索引网构建器对分好类的网页进行构建索引网,方便对于用户服务流程的推荐,然后将构建的结果存入数据库。

另一方面,当用户的检索要求进来时,则根据用户需求分析定位器来完成对于用户需求的分析及定位,最终返回给用户界面满足用户需求的信息。 

数据库部分,是唯一与外部进行交互的部分。 

信息服务服务系统中的分类器:从数据库中提取出网页信息,并对网页进行分类,并将分类信息返回给数据库;以及信息收集子系统将网页信息收集之后会送入全文索引器进行一个倒排索引,生成的索引文件送入分类器中对每个网页进行分类。 

由上述对系统的介绍可知,在本实施例中,网页特征向量构建器是组成信息服务系统的一部分。信息服务系统是一个通过将网页划分成网页类,并构建一个由网页类之间的边权组成的索引网,进行管理和组织互联网中网页的系统。而网页特征向量构建器,是通过网页类的标准网页以及网页类名构建出一个能准确表示网页类特性的工具。这里的标准网页,是由用户给出或者系统自己寻找出来的表征网页特性的网页。 

网页类特征向量构建器的基本架构如图1所示。在整个特征向量构建器中,包含用户接口、网页分析器和扩展器3个重要组成部分,爬虫将用户给定的网页类中标准网页爬取回来,交由网页分析器,提取其中的关键信息组成网页类的特征向量,其中: 

所述用户接口,用于与用户进行直接交互,获取用户需要组建的网页类的类名,以及用户可以提供的若干该网页类中的标准网页。

所述爬虫,即用来爬取互联网中的指定网页。 

所述网页分析器,即针对网页类特征向量的构建,做针对性的对网页进行分析,是整个网页类特征向量构建器的主要部分。 

所述扩展器是在用户给定的标准网页仍然不能构建出完整的网页类特征向量时,用于补充网页类特征向量的。 

网页特征向量的构建基本流程即如图2所示。网页特征向量构建器工作流程: 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210445795.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top