[发明专利]网页类特征向量的构建方法及其构建器无效

专利信息
申请号: 201210445795.8 申请日: 2012-11-09
公开(公告)号: CN102982114A 公开(公告)日: 2013-03-20
发明(设计)人: 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春;张洋劼 申请(专利权)人: 同济大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海天协和诚知识产权代理事务所 31216 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 特征向量 构建 方法 及其
【权利要求书】:

1.一种网页类特征向量的构建器,其特征在于,包含用户接口、网页分析器和扩展器三个重要组成部分,构建器外的爬虫将用户给定的网页类中标准网页爬取回来,交由网页分析器,网页分析器提取其中的关键信息组成网页类的特征向量,其中: 

所述用户接口,用于与用户进行直接交互,获取用户需要组建的网页类的类名,以及用户可以提供的若干该网页类中的标准网页;

所述网页分析器,即针对网页类特征向量的构建,做针对性的对网页进行分析,是整个网页类特征向量构建器的主要部分;

所述扩展器是在用户给定的标准网页仍然不能构建出完整的网页类特征向量时,用于补充网页类特征向量的。

2.一种如权利要求1所述构建器的网页类特征向量的构建方法,其特征在于,包括如下步骤:

第一步:通过接口,获取用户的请求,所述请求包括用户需要生成的类的类名和若干符合该类性质的标准网页网址;

第二步:将这些标准网页的网址交给爬虫,由爬虫将这些用户提供的标准网页爬回本地,以做进一步的分析;

第三步:由网页分析器分析网页中的关键信息,或者对文本中的主要信息进行分析,根据不同部分的单词出现频率给予不同的权重,确定一组词作为网页类的特征向量;

第四步,如果在第三步中给予的网页类特征向量中词语个数足够描述网页类的特性的话,即返回给用户这个特征向量,否则进入第五步将网页类的类名交由扩展器,由扩展器使用网页类的类名将网页类的特征向量进行扩展,以达到能描述网页类特性;

第五步:此时表示用户给定的标准网页不足以构成一个能完整反映网页类的特征向量,则扩展器内部需要调用爬虫、网页分析器和开放搜索引擎或本地搜索引擎的API。

3.如权利要求2所述的网页类特征向量的构建方法,其特征在于,所述的第五步,通过用户接口,获取第四步传过来的网页类的类名,然后交由搜索引擎的API或者其他分析器,获取有关这个类名的最相关的一部分网页,用爬虫将这些网页爬取回来,进行分析之后,提取出最符合网页类特性的词组,用以补充网页类的特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210445795.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top