[发明专利]一种数据处理方法和系统在审
申请号: | 201710630757.2 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107480134A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 陈进宝;刘希;唐妍 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙)11384 | 代理人: | 郑青松 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 | ||
1.一种数据处理方法,其特征在于,包括以下步骤:
从预设数据源采集web网页;
确定采集的web网页所属的网页类别;其中,所述网页类别为根据所述预设数据源包括的网页所描述的不同对象划分的;
采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息;其中,所述包装器为根据所述网页类别对应网页所描述对象的属性生成;
将抽取到的有效信息转换成预设标准格式并存储。
2.根据权利要求1所述的数据处理方法,其特征在于,在采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息之前,还包括:
根据所述网页类别对应网页所描述对象的属性,从所述采集的web网页包含的文字信息中抽取所述属性对应的关键字字段;并
基于抽取的关键字字段生成所述网页类别对应的包装器。
3.根据权利要求2所述的数据处理方法,其特征在于,所述包装器用于为对应网页类别定义语义特征识别器和语境特征识别器;
所述语义特征识别器用于根据关键字字段的语义特征对符合该语义特征的文本进行识别;
所述语境特征识别器用于根据关键字字段的语境特征对符合该语境特征的文本进行识别;
采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息,具体包括:
针对抽取的每个关键字字段,根据该关键字字段的语义特征,采用对应的语义特征识别器从所述采集的web网页包含的文字信息中确定符合所述语义特征的文本;以及
使用对应的语境特征识别器从符合所述语义特征的文本中识别符合该关键字字段语境特征的文本,并作为该关键字字段对应的文本值。
4.根据权利要求3所述的数据处理方法,其特征在于,所述包装器还用于定义关键字字段对应文本值的标准格式;
将抽取到的有效信息转换成预设标准格式并存储,具体包括:
针对每个关键字字段,将该关键字字段对应的文本值转换为对应的预设标准格式并存储。
5.根据权利要求2-4任一项所述的数据处理方法,其特征在于,在将抽取到的有效信息进行存储之前,还包括:
对所抽取到的有效信息中描述同一对象的关键字字段进行数据标准化处理,以消除表征相同意义的关键字字段之间的预设冲突;所述预设冲突包括:命名冲突、格式冲突。
6.根据权利要求2-4任一项所述的数据处理方法,其特征在于,在将抽取到的有效信息进行存储之前,还包括:
针对所抽取到的有效信息中的每条记录,根据该记录包括的关键字字段对应文本值的缺失程度确定该记录是否为不完整记录;并针对确定出的不完整记录,按照预设处理规则对不完整记录进行处理;
采用预设算法对所抽取到的有效信息进行重复记录检测,并针对检测到的重复记录,保留一条记录进行存储;
其中,描述同一对象的一组关键字字段对应的每组文本值分别称为一条记录。
7.根据权利要求6所述的数据处理方法,其特征在于,采用预设算法进行重复记录检测,具体包括:
针对任意两条待检测记录,分别确定该两条待检测记录中相同关键字字段所对应文本值之间的编辑距离;
若存在任一对应文本值之间的编辑距离大于预设字段相似度阈值,则确定该两条待检测记录不为重复记录;
若任意对应文本值之间的编辑距离均不大于预设字段相似度阈值,则根据各关键字字段对应的预设权重信息,对各编辑距离进行加权求和;判断得到的和值与各权重和值之间的商是否小于预设记录相似度阈值;若是,则确定该两条待检测记录不为重复记录。
8.一种数据处理系统,其特征在于,包括:
数据采集模块,用于从预设数据源采集web网页;
类别确定模块,用于确定采集的web网页所属的网页类别;其中,所述网页类别为根据所述预设数据源包括的网页所描述的不同对象划分的;
信息抽取模块,用于采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息;其中,所述包装器为根据所述网页类别对应网页所描述对象的属性生成;
信息处理模块,用于将抽取到的有效信息转换成预设标准格式并存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710630757.2/1.html,转载请声明来源钻瓜专利网。