[发明专利]网页类特征向量的构建方法及其构建器无效

申请号：	201210445795.8	申请日：	2012-11-09
公开（公告）号：	CN102982114A	公开（公告）日：	2013-03-20
发明（设计）人：	蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春;张洋劼	申请（专利权）人：	同济大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海天协和诚知识产权代理事务所 31216	代理人：	叶凤
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页特征向量构建方法及其
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网页类特征向量的构建器，其特征在于，包含用户接口、网页分析器和扩展器三个重要组成部分，构建器外的爬虫将用户给定的网页类中标准网页爬取回来，交由网页分析器，网页分析器提取其中的关键信息组成网页类的特征向量，其中：

所述用户接口，用于与用户进行直接交互，获取用户需要组建的网页类的类名，以及用户可以提供的若干该网页类中的标准网页；

所述网页分析器，即针对网页类特征向量的构建，做针对性的对网页进行分析，是整个网页类特征向量构建器的主要部分；

所述扩展器是在用户给定的标准网页仍然不能构建出完整的网页类特征向量时，用于补充网页类特征向量的。

2.一种如权利要求1所述构建器的网页类特征向量的构建方法，其特征在于，包括如下步骤：

第一步：通过接口，获取用户的请求，所述请求包括用户需要生成的类的类名和若干符合该类性质的标准网页网址；

第二步：将这些标准网页的网址交给爬虫，由爬虫将这些用户提供的标准网页爬回本地，以做进一步的分析；

第三步：由网页分析器分析网页中的关键信息，或者对文本中的主要信息进行分析，根据不同部分的单词出现频率给予不同的权重，确定一组词作为网页类的特征向量；

第四步，如果在第三步中给予的网页类特征向量中词语个数足够描述网页类的特性的话，即返回给用户这个特征向量，否则进入第五步将网页类的类名交由扩展器，由扩展器使用网页类的类名将网页类的特征向量进行扩展，以达到能描述网页类特性；

第五步：此时表示用户给定的标准网页不足以构成一个能完整反映网页类的特征向量，则扩展器内部需要调用爬虫、网页分析器和开放搜索引擎或本地搜索引擎的API。

3.如权利要求2所述的网页类特征向量的构建方法，其特征在于，所述的第五步，通过用户接口，获取第四步传过来的网页类的类名，然后交由搜索引擎的API或者其他分析器，获取有关这个类名的最相关的一部分网页，用爬虫将这些网页爬取回来，进行分析之后，提取出最符合网页类特性的词组，用以补充网页类的特征向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学，未经同济大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210445795.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载