[发明专利]一种数据处理方法及服务器有效
申请号: | 201611196380.6 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106649720B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 窦志成;亚振钊 | 申请(专利权)人: | 北京一览群智数据科技有限责任公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/25;G06F16/2457 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 服务器 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
从数据库中分别读取第一类型数据和第二类型数据;其中,所述第一类型数据存储在数据库中的第一存储区域,所述第二类型数据存储在数据库中的第二存储区域;所述第一类型数据为链接类型数据,所述第二类型数据为页面相关的数据;
将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;
当对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据链接型数据下载得到页面相关的数据,将所述下载得到的第二类型数据存入所述数据库;
当对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行抽取处理得到对象数据,将所述对象数据存入所述数据库;
所述对第二类型数据进行抽取处理得到的对象数据为结构化数据和/或第一类型数据;
所述第一队列的下载处理和所述第二队列的抽取处理是循环执行的,直至所述数据库中的第一类型数据和第二类型数据被处理完成为止。
2.根据权利要求1所述的数据处理方法,其特征在于,所述第一类型数据和所述第二类型数据分区域存储在所述数据库;
所述从数据库中分别读取第一类型数据和第二类型数据,包括:
从所述第一存储区域中读取第一类型数据,从所述第二存储区域读取第二类型数据。
3.一种服务器,其特征在于,所述服务器包括:
调度模块,用于从数据库中分别读取第一类型数据和第二类型数据;将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;其中,所述第一类型数据存储在数据库中的第一存储区域,所述第二类型数据存储在数据库中的第二存储区域;所述第一类型数据为链接类型数据,所述第二类型数据为页面相关的数据;
队列模块,用于通过第一队列存储第一类型数据,通过第二队列存储第二类型数据;
下载模块,用于对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据链接型数据下载得到页面相关的数据;将所述下载得到的第二类型数据存入所述数据库;
抽取模块,用于对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库;
所述抽取模块,具体用于对所述第二类型数据进行解析,抽取得到结构化数据和/或链接类型数据,其中,所述链接类型数据是指所述第一类型数据;
所述服务器中的各个模块循环执行所述下载处理和所述抽取处理,直至所述数据库中的第一类型数据和第二类型数据被处理完成为止。
4.根据权利要求3所述的服务器,其特征在于,所述调度模块,具体用于从数据库中读取链接类型数据。
5.根据权利要求3所述的服务器,其特征在于,所述数据库对所述第一类型数据和所述第二类型数据进行分区域存储;
所述调度模块,具体用于从所述第一存储区域中读取第一类型数据,从所述第二存储区域读取第二类型数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京一览群智数据科技有限责任公司,未经北京一览群智数据科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611196380.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页面的下载方法及客户端
- 下一篇:一种文件排重方法和装置