[发明专利]用于获取网站资源的数据处理系统、方法及装置有效
申请号: | 201410521135.2 | 申请日: | 2014-09-30 |
公开(公告)号: | CN104281680B | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 鲁晓莹;李进;刘世戟;刘鸿宇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/06 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 温旭;郝传鑫 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 获取 网站 资源 数据处理系统 方法 装置 | ||
本发明公开了一种用于获取网站资源的数据处理系统、方法及装置,其中,所述系统包括:数据筛选装置,用于接收由网络爬虫抓取的网页数据,并在接收过程中对接收到的网页数据进行筛选处理,将筛选出的与指定网站相关的网页数据发送至网页解析服务器;网页解析服务器,用于根据预设的解析策略对与指定网站相关的网页数据进行解析处理得到第一结构化数据,并将第一结构化数据保存至数据库;数据库,用于根据在预定时间段内接收到的第一结构化数据进行数据融合处理,得到用于描述指定网站的资源的第二结构化数据。采用本发明,能缩短网站资源的更新周期,提高网站资源的时效性,针对视频网站,还能提高视频资源的出图率,提高用户体验。
技术领域
本发明涉及数据处理领域,更为具体而言,涉及一种用于获取网站资源的数据处理系统、方法及装置。
背景技术
搜索引擎基于数据库中收录的网站资源(网站资源通常以结构化数据描述)为用户提供搜索服务。搜索引擎的搜索结果与数据库中收录的网站资源直接相关,因此,为了提高用户体验,需要及时更新网站资源。
在现有技术中,通常采用如下方式更新网站资源:首先,等待网络爬虫(spider)抓取海量的网页,将抓取的网页存入第一数据库中并建立索引;然后,对第一数据库中的全量网页进行筛选和结构化数据解析(这一作业通常由人工触发),将解析结果存入第二数据库;最后,由第二数据库对多种数据进行数据融合、建立索引等处理以便线上展示。
由于等待网络爬虫抓取网页的时间很长并且涉及对第一数据库的数据存取处理,这导致对于单个网页的计算成本(包括数据库成本和时间成本)较大;由于整个数据筛选、解析过程为离线地批量处理,这导致数据更新的整体周期较长。
以上缺陷导致现有技术无法及时收录最新的网站资源,这大大影响用户的搜索体验。并且对于时效性需求较强的网站资源以及结构化数据计算较为复杂的网站资源,采用现有技术更是无法及时收录。以时效性要求较高的视频资源为例,其数据处理较为复杂,一方面需要从视频列表页与视频播放页共同解析结构化数据才能达到较好的数据覆盖;另一方面需要融合与网页相关的图片才能在后续展示时提高用户体验,然而海量视频带来的海量图片资源根本难以在短时间内完成抓取、存储转换等处理。当采用现有技术更新视频资源时,不仅更新周期长,无法满足视频资源的时效性要求,而且由于图片处理与结构化数据处理的进度难以掌控,很容易出现无法展示图片的情况,严重影响用户体验。
发明内容
为了解决现有技术所存在的缺陷,本发明实施方式提供一种用于获取网站资源的数据处理系统、方法及装置,能够克服现有技术数据更新周期长、资源的时效性差等缺陷。
第一方面,本发明实施例提供了一种用于获取网站资源的数据处理系统,包括:
数据筛选装置,用于接收由网络爬虫抓取的网页数据,并在接收过程中对接收到的网页数据进行筛选处理,将筛选出的与指定网站相关的网页数据发送至网页解析服务器;
网页解析服务器,用于根据预设的解析策略对与所述指定网站相关的网页数据进行解析处理,得到与所述指定网站相关的第一结构化数据,并将所述第一结构化数据保存至数据库;
所述数据库,用于根据在预定时间段内接收到的所述第一结构化数据进行数据融合处理,得到用于描述所述指定网站的资源的第二结构化数据。
可选地,在本实施例的一种实现方式中,所述数据筛选装置具体用于,在接收网页数据的过程中,根据所述指定网站的URL(Uniform Resoure Locator:统一资源定位器)正则表达式对接收到的网页数据进行筛选处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410521135.2/2.html,转载请声明来源钻瓜专利网。