[发明专利]一种数据处理方法和装置在审
申请号: | 201710134937.1 | 申请日: | 2017-03-08 |
公开(公告)号: | CN106991131A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 李哲君;卫华飞;赵平西 | 申请(专利权)人: | 陕西识代运筹信息科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京众达德权知识产权代理有限公司11570 | 代理人: | 刘杰 |
地址: | 710065 陕西省西安市*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种数据处理方法,应用于对网页的数据采集,其特征在于,所述方法包括:
获得第一网页;
根据所述第一网页获得所述第一网页的对象;
根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;
获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;
根据所述第一映射关系获得待获取元素在所述第二网页中的位置;
根据所述第一映射关系获得所述待获取元素在所述位置的数据;
判断所述数据的数据类型;
当所述数据类型是基本数据类型时,对所述数据进行标准化处理。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述标准化处理后的数据存储到数据库中。
3.如权利要求1所述的方法,其特征在于,所述对象还包括定位注解,所述根据所述第一映射关系获得待获取元素在所述第二网页中的位置,具体为:
根据定位注解获得待获取元素在所述第二网页中的位置。
4.如权利要求1所述的方法,其特征在于,所述对象还包括取值注解,所述根据所述第一映射关系获得所述待获取元素在所述位置的数据,具体为:
通过调用取值注解获得所述待获取元素在所述位置的数据。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
当所述数据类型不是基本数据类型时,则获得第三网页,其中,所述第一网页和所述第三网页具有相同的属性信息。
6.一种数据处理装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获得第一网页;
第二获得单元,所述第二获得单元用于根据所述第一网页获得所述第一网页的对象;
第三获得单元,所述第三获得单元用于根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;
第四获得单元,所述第四获得单元用于获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;
第五获得单元,所述第五获得单元用于根据所述第一映射关系获得待获取元素在所述第二网页中的位置;
第六获得单元,所述第六获得单元用于根据所述第一映射关系获得所述待获取元素在所述位置的数据;
第一判断单元,所述第一判断单元用于判断所述数据的数据类型;
第一处理单元,所述第一处理单元用于当所述数据类型是基本数据类型时,对所述数据进行标准化处理。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
第一存储单元,所述第一存储单元用于将所述标准化处理后的数据存储到数据库中。
8.如权利要求6所述的方法,其特征在于,所述装置还包括:
第七获得单元,所述第七获得单元用于根据定位注解获得待获取元素在所述第二网页中的位置。
9.如权利要求6所述的方法,其特征在于,所述装置还包括:
第八获得单元,所述第八获得单元用于通过调用取值注解获得所述待获取元素在所述位置的数据。
10.如权利要求6所述的方法,其特征在于,所述方法还包括:
第九获得单元,所述第九获得单元用于当所述数据类型不是基本数据类型时,则获得第三网页,其中,所述第一网页和所述第三网页具有相同的属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西识代运筹信息科技股份有限公司,未经陕西识代运筹信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710134937.1/1.html,转载请声明来源钻瓜专利网。