[发明专利]招投标相关网页爬取任务调度方法及系统有效
| 申请号: | 201811481861.0 | 申请日: | 2018-12-05 |
| 公开(公告)号: | CN109670097B | 公开(公告)日: | 2022-10-28 |
| 发明(设计)人: | 杨敏 | 申请(专利权)人: | 贵阳高新数通信息有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9532;G06F16/9535;G06Q40/06 |
| 代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 赵玉乾 |
| 地址: | 550000 贵州省贵阳市高新*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 投标 相关 网页 任务 调度 方法 系统 | ||
1.招投标相关网页爬取任务调度方法,其特征在于:包括如下步骤:
S1:用户注册登录并输入用户输入信息集,信息集包括关注企业名称和内容;
S2:根据用户输入的企业名称寻找对应企业网站日均访问人数、日访问时间记录信息以及企业信息更新时间信息;
S3:记录用户每天登录系统和查看信息的时间,生成用户查看信息规律表,用户查看信息规律表包括:每日登录时间规律、查看内容、查看每一个企业内容对应时间以及查看企业内容的先后排序;
S4:根据用户查看信息规律表、企业网站日均访问人数、日访问时间记录信息和企业信息更新时间信息生成分配模型,然后根据分配模型分配不同的子服务器进行信息爬取;其中,根据用户查看信息规律对每日登陆时间早的用户关注的企业名称和内容对应的企业网站信息优先进行爬取,同时还按照用户查看企业内容的先后排序对对应企业信息进行爬取;
S5:总服务器根据企业网站日均访问人数信息单、日访问时间记录信息、时间信息记录表和用户查看信息规律表生成分配模型,生成分配模型时,对同一用户关注的所有企业网站进行三种类型的划分,对同一用户关注的所有企业网站进行类型划分以后,对于属于相同类型的企业网站,按照用户查看企业内容的先后排序依次对比用户每日登录时间和其用户关注且常常浏览的企业网站对应的日访问时间记录信息;其中,日访问时间记录信息中记录了企业网站往常一天中访问人数高峰期和低谷期信息;然后确认在企业网站每天更新信息时间到用户每日登录时间之间的访问人数低谷期为最佳信息爬取时间,并在该最佳信息爬取时间内安排对应的子服务器进行招标信息和中标信息的爬取。
2.根据权利要求1所述的招投标相关网页爬取任务调度方法,其特征在于:在步骤S3中,每日登录时间规律包括用户每天首次登录系统时间规律、用户每天二次登录系统时间规律和用户每天第三次登录系统时间规律;在步骤S5中,第一种类型为企业网站每天更新信息时间在用户每天首次登录系统时间前,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天首次登录系统时间期间;第二种类型为企业网站每天更新信息时间在用户每天首次登录系统时间和用户每天二次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天二次登录系统时间期间;第三种类型为企业网站每天更新信息时间在用户每天二次登录系统时间和用户每天第三次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天第三次登录系统时间期间。
3.根据权利要求2所述的招投标相关网页爬取任务调度方法,其特征在于:在确认最佳信息爬取时间后,若用户关注的多家企业网站最佳信息爬取时间预算相同,且多家企业网站对应的企业网站日均访问人数信息单获取的日均访问人数均相同,则按照用户查看企业内容的先后排序依次安排空闲的子服务器进行爬取。
4.根据权利要求3所述的招投标相关网页爬取任务调度方法,其特征在于:若用户当天首次登录系统时间和用户查看信息规律表中记录的不一致,且用户当天首次登录系统时间在往常的用户每天首次登录系统时间之前,则根据该用户往常的用户查看信息规律表获取往常该用户首次登录系统时间与查看第一个企业内容时间之间的时间差值,同时获取该用户当天首次登录系统时间,并从用户当天首次登录系统时间开始安排子服务器开始从对应企业网站上爬取对应的招标信息或中标信息。
5.招投标相关网页爬取任务调度系统,包括:用户终端、总服务器和多台子服务器;
所述用户终端用于用户关注、购买和查看对应企业网站上爬取的信息;
其特征在于:
所述总服务器用于获取企业网站日均访问人数、日访问时间记录信息、企业信息更新时间信息以及用户查看信息规律表,然后根据获取的所有信息生成分配模型,并根据生成的分配模型分配子服务器进行信息爬取;
分配模型生成时,根据企业信息更新时间信息将用户关注的所有企业网站进行三种类型的划分,对于属于相同类型的企业网站,按照用户查看企业内容的先后排序依次对比用户每日登录时间和其用户关注且常常浏览的企业网站对应的日访问时间记录信息或周访问时间记录信息,并确认在企业网站每天更新信息时间到用户每日登录时间之间的访问人数低谷期,为最佳信息爬取时间,并在该最佳信息爬取时间内安排对应的子服务器进行招标信息和中标信息的爬取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵阳高新数通信息有限公司,未经贵阳高新数通信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811481861.0/1.html,转载请声明来源钻瓜专利网。





