[发明专利]清洗房价数据的方法、装置、计算机设备和存储介质在审
申请号: | 201810955918.X | 申请日: | 2018-08-21 |
公开(公告)号: | CN109299081A | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 王先锋 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/953;G06Q50/16 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区益田路503*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字段 重复 计算机设备 存储介质 去噪 去重 清洗 调整处理 数据包含 顺序调整 记录 去除 剔除 错位 | ||
本发明提出的清洗房价数据的方法、装置、计算机设备和存储介质,其中方法包括:获取初始房价数据;当初始房价数据中具有顺序错位的字段,对初始房价数据中字段的顺序进行调整处理以得到字段顺序正确的第一房价数据;当第一房价数据缺少字段,对所述第一房价数据进行补缺处理以得到字段完整的第二房价数据;当第二房价数据具有无效或重复字符,对第二房价数据进行剔除无效或重复字符的去噪处理以得到第三房价数据;当第三房价数据包含重复多余的记录,对第三房价数据进行去除重复多余记录的去重处理以得到标准房价数据,本发明对爬取到的数据进行顺序调整、补缺字段、去噪、去重等处理,从而获得准确的、唯一的标准房价数据,方便后续使用。
技术领域
本发明涉及到数据处理的技术领域,特别是涉及到一种清洗房价数据的方法、装置、计算机设备和存储介质。
背景技术
一般通过爬虫爬取到的房价数据都比较散乱,由于各网站的业务系统标准不一致、业务字段不一致、或语言表达差异,从而导致爬取到的房价数据不统一,甚至房价数据只有部分字段有效,难以从中获得真实有效的信息,另一方面,使用房价数据的系统之间数据标准可能不一致,导致交互不能畅通,所以需要对爬取到的房价数据进行清洗,数据清洗即是将不同格式、不同表达的数据统一成符合预定格式要求的数据,使得数据标准化,便于后续的数据处理,但是目前市场上对爬取到的房价数据清洗难度大,清洗的结果一般难达到预期效果。
发明内容
本发明的主要目的为提供一种清洗便利快速的清洗房价数据的方法、装置、计算机设备和存储介质。
本发明提出一种清洗房价数据的方法,包括:获取初始房价数据;
当所述初始房价数据中具有顺序错位的字段,对所述初始房价数据中字段的顺序进行调整处理以得到字段顺序正确的第一房价数据;
当所述第一房价数据缺少字段,对所述第一房价数据进行补缺处理以得到字段完整的第二房价数据;
当所述第二房价数据具有无效或重复字符,对所述第二房价数据进行剔除无效或重复字符的去噪处理以得到第三房价数据;
当所述第三房价数据包含重复多余的记录,对所述第三房价数据进行去除重复多余记录的去重处理以得到标准房价数据。
进一步地,所述对所述初始房价数据中字段的顺序进行调整处理以得到第一房价数据的步骤,包括:
读取所述初始房价数据中每条记录的字段;
判断所述字段的格式是否与预设字段格式匹配;
若所述字段的格式与预设字段格式不匹配,则判断所述字段里是否包含预设字段格式中的关键字段;
若是,则根据所述预设字段格式中的关键字段的顺序对所述字段进行顺序调整,以得到第一房价数据。
进一步地,所述对所述第一房价数据进行补缺处理以得到字段完整的第二房价数据的步骤,包括:
读取所述第一房价数据中每条记录的字段;
根据所述预设字段格式与所述每条记录的字段的匹配结果或所述记录中字段之间的关联关系判断是否缺少字段;
若是,则在预设表格中查找所述第一房价数据中的缺失字段;
将所述缺失字段填补至所述缺失字段的位置,以得到所述第二房价数据。
进一步地,所述对所述第二房价数据进行剔除无效或重复字符的去噪处理以得到第三房价数据的步骤之后,包括:
对所述第三房价数据中的房价单位通过换算处理,以形成统一的房价单位。
进一步地,所述对所述第三房价数据进行去除重复多余记录的去重处理以得到标准房价数据的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810955918.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力生产运行数据的清洗方法及计算设备
- 下一篇:一种大数据分析方法及系统