[发明专利]一种数据处理方法和系统在审
申请号: | 201710630757.2 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107480134A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 陈进宝;刘希;唐妍 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙)11384 | 代理人: | 郑青松 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 | ||
技术领域
本发明属于数据处理领域,具体涉及一种数据处理方法和系统。
背景技术
数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。
数据处理能够及时发现并纠正数据文件中可识别的错误并将错误进行纠正,主要包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据称为“脏数据”。这些“脏数据”如果不进行处理,将会对数据的实际价值产生干扰,进而影响数据价值。现有技术的数据处理方法主要针对来自数据库的结构化的数据,而随着计算机网络技术的飞速发展,产生了大量有价值的网络数据,而网络数据中大部分为半结构化和非结构化的数据,而现有技术中缺乏针对网络数据的有效的数据处理方法。
发明内容
针对上述技术问题,本发明提供一种数据处理方法和系统,能够对网络数据进行处理,以抽取出有效信息。
本发明采用的技术方案为:
本发明的一方面提供一种数据处理方法,包括以下步骤:从预设数据源采集web网页;确定采集的web网页所属的网页类别;其中,所述网页类别为根据所述预设数据源包括的网页所描述的不同对象划分的;采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息;其中,所述包装器为根据所述网页类别对应网页所描述对象的属性生成;将抽取到的有效信息转换成预设标准格式并存储。
可选地,在采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息之前,还包括:根据所述网页类别对应网页所描述对象的属性,从所述采集的web网页包含的文字信息中抽取所述属性对应的关键字字段;并基于抽取的关键字字段生成所述网页类别对应的包装器。
可选地,所述包装器用于为对应网页类别定义语义特征识别器和语境特征识别器;所述语义特征识别器用于根据关键字字段的语义特征对符合该语义特征的文本进行识别;所述语境特征识别器用于根据关键字字段的语境特征对符合该语境特征的文本进行识别;采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息,具体包括:针对抽取的每个关键字字段,根据该关键字字段的语义特征,采用对应的语义特征识别器从所述采集的web网页包含的文字信息中确定符合所述语义特征的文本;以及使用对应的语境特征识别器从符合所述语义特征的文本中识别符合该关键字字段语境特征的文本,并作为该关键字字段对应的文本值。
可选地,所述包装器还用于定义关键字字段对应文本值的标准格式;将抽取到的有效信息转换成预设标准格式并存储,具体包括:针对每个关键字字段,将该关键字字段对应的文本值转换为对应的预设标准格式并存储。
可选地,在将抽取到的有效信息进行存储之前,还包括:对所抽取到的有效信息中描述同一对象的关键字字段进行数据标准化处理,以消除表征相同意义的关键字字段之间的预设冲突;所述预设冲突包括:命名冲突、格式冲突。
可选地,在将抽取到的有效信息进行存储之前,还包括:针对所抽取到的有效信息中的每条记录,根据该记录包括的关键字字段对应文本值的缺失程度确定该记录是否为不完整记录;并针对确定出的不完整记录,按照预设处理规则对不完整记录进行处理;采用预设算法对所抽取到的有效信息进行重复记录检测,并针对检测到的重复记录,保留一条记录进行存储;其中,描述同一对象的一组关键字字段对应的每组文本值分别称为一条记录。
可选地,采用预设算法进行重复记录检测,具体包括:针对任意两条待检测记录,分别确定该两条待检测记录中相同关键字字段所对应文本值之间的编辑距离;若存在任一对应文本值之间的编辑距离大于预设字段相似度阈值,则确定该两条待检测记录不为重复记录;若任意对应文本值之间的编辑距离均不大于预设字段相似度阈值,则根据各关键字字段对应的预设权重信息,对各编辑距离进行加权求和;判断得到的和值与各权重和值之间的商是否小于预设记录相似度阈值;若是,则确定该两条待检测记录不为重复记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710630757.2/2.html,转载请声明来源钻瓜专利网。