[发明专利]个性化定向采集云服务系统有效

专利信息
申请号: 201110285067.0 申请日: 2011-09-23
公开(公告)号: CN102291469A 公开(公告)日: 2011-12-21
发明(设计)人: 王楠 申请(专利权)人: 王楠
主分类号: H04L29/08 分类号: H04L29/08
代理公司: 南京纵横知识产权代理有限公司 32224 代理人: 董建林
地址: 210006 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 个性化 定向 采集 服务 系统
【权利要求书】:

1.个性化定向采集云服务系统,其包括定向采集执行端和若干客户端,所述客户端根据用户设定输出采集主题和初始URL,所述定向采集执行端包括若干个网页定向采集器,其特征在于:其还包括:

基于云服务的云端管理平台,负责接收所述采集主题和初始URL并将其传输给所述定向采集端;负责将所述定向采集端采集的网页传输回所述客户端。

2.根据权利要求1所述的个性化定向采集云服务系统,其特征在于:所述客户端包括:

采集配置客户端,负责提供人机交互界面供用户设定所述采集主题和初始URL;

内容提取客户端,负责将所述云端管理平台传输过来的网页显示给用户,并将该网页处理后保存到采集结果数据库。

3.根据权利要求2所述的个性化定向采集云服务系统,其特征在于:所述采集配置客户端的工作流程为:

1)提供编辑界面供用户输入URL;

2)根据用户输入的URL,提取相应的网页;

3)根据步骤2提取的网页,生成可供用户选择内容的选择网页;

4)根据用户选择的内容,将其对应的URL作为初始URL传输给所述云端管理平台。

4.根据权利要求2所述的个性化定向采集云服务系统,其特征在于:所述内容提取客户端的工作流程为:

1)将所述云端管理平台传输过来的网页显示给用户;

2)对该网页进行加注释、打标签作业;

3)对该网页的多媒体文件进行转换格式、重新压缩处理;

4)将步骤3)处理后的网页保存到所述采集结果数据库;

5)提供搜索引擎供用户检索所述采集结果数据库。

5.根据权利要求1所述的个性化定向采集云服务系统,其特征在于:所述云端管理平台包括以下模块:

任务调度管理:负责根据所述初始URL生成采集任务传输给所述定向采集执行端;

客户管理:负责维护用户资料、用户权限、用户注册和登陆;

网页资料管理:负责接收所述定向采集执行端采集的网页,将其保存到原始网页数据库的同时传输给所述客户端。

6.根据权利要求5所述的个性化定向采集云服务系统,其特征在于:所述任务调度管理的工作流程为:

1)接收到所有所述客户端发来的所述初始URL,生成待采集的URL列表; 

2)根据各个所述网页定向采集器的工作状态,将所述URL列表中的URL分配给所述网页定向采集器。

7.根据权利要求1所述的个性化定向采集云服务系统,其特征在于:所述定向采集执行端还包括网页分析模块和链接队列池,其工作流程为:

1)接收所述云端管理平台传输过来的所述采集主题和初始URL;

2)所述网页定向采集器发出网页请求,采集所述初始URL对应的网页;

3)接收网页,并将完整的网页送入所述网页分析模块;

4)所述网页分析模块按所述采集主题提取该网页的必要的深度URL链接,送入所述链接队列池,同时输出网页到所述云端管理平台;

5)所述网页定向采集器不断重复提取所述链接队列池中的URL链接,重复步骤2)~5)直到所述链接队列池中无URL链接为止。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王楠,未经王楠许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110285067.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top