[发明专利]个性化定向采集云服务系统有效
| 申请号: | 201110285067.0 | 申请日: | 2011-09-23 |
| 公开(公告)号: | CN102291469A | 公开(公告)日: | 2011-12-21 |
| 发明(设计)人: | 王楠 | 申请(专利权)人: | 王楠 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08 |
| 代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210006 江苏省南京*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 个性化 定向 采集 服务 系统 | ||
1.个性化定向采集云服务系统,其包括定向采集执行端和若干客户端,所述客户端根据用户设定输出采集主题和初始URL,所述定向采集执行端包括若干个网页定向采集器,其特征在于:其还包括:
基于云服务的云端管理平台,负责接收所述采集主题和初始URL并将其传输给所述定向采集端;负责将所述定向采集端采集的网页传输回所述客户端。
2.根据权利要求1所述的个性化定向采集云服务系统,其特征在于:所述客户端包括:
采集配置客户端,负责提供人机交互界面供用户设定所述采集主题和初始URL;
内容提取客户端,负责将所述云端管理平台传输过来的网页显示给用户,并将该网页处理后保存到采集结果数据库。
3.根据权利要求2所述的个性化定向采集云服务系统,其特征在于:所述采集配置客户端的工作流程为:
1)提供编辑界面供用户输入URL;
2)根据用户输入的URL,提取相应的网页;
3)根据步骤2提取的网页,生成可供用户选择内容的选择网页;
4)根据用户选择的内容,将其对应的URL作为初始URL传输给所述云端管理平台。
4.根据权利要求2所述的个性化定向采集云服务系统,其特征在于:所述内容提取客户端的工作流程为:
1)将所述云端管理平台传输过来的网页显示给用户;
2)对该网页进行加注释、打标签作业;
3)对该网页的多媒体文件进行转换格式、重新压缩处理;
4)将步骤3)处理后的网页保存到所述采集结果数据库;
5)提供搜索引擎供用户检索所述采集结果数据库。
5.根据权利要求1所述的个性化定向采集云服务系统,其特征在于:所述云端管理平台包括以下模块:
任务调度管理:负责根据所述初始URL生成采集任务传输给所述定向采集执行端;
客户管理:负责维护用户资料、用户权限、用户注册和登陆;
网页资料管理:负责接收所述定向采集执行端采集的网页,将其保存到原始网页数据库的同时传输给所述客户端。
6.根据权利要求5所述的个性化定向采集云服务系统,其特征在于:所述任务调度管理的工作流程为:
1)接收到所有所述客户端发来的所述初始URL,生成待采集的URL列表;
2)根据各个所述网页定向采集器的工作状态,将所述URL列表中的URL分配给所述网页定向采集器。
7.根据权利要求1所述的个性化定向采集云服务系统,其特征在于:所述定向采集执行端还包括网页分析模块和链接队列池,其工作流程为:
1)接收所述云端管理平台传输过来的所述采集主题和初始URL;
2)所述网页定向采集器发出网页请求,采集所述初始URL对应的网页;
3)接收网页,并将完整的网页送入所述网页分析模块;
4)所述网页分析模块按所述采集主题提取该网页的必要的深度URL链接,送入所述链接队列池,同时输出网页到所述云端管理平台;
5)所述网页定向采集器不断重复提取所述链接队列池中的URL链接,重复步骤2)~5)直到所述链接队列池中无URL链接为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王楠,未经王楠许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110285067.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:投影机红蓝激光光源系统
- 下一篇:放射线检测器





