[发明专利]数据提取方法、装置及系统有效
申请号: | 201611080168.3 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106776901B | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 蔡自彬;何金良;李娟 | 申请(专利权)人: | 北京知道创宇信息技术股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 11396 北京思睿峰知识产权代理有限公司 | 代理人: | 谢建云;赵爱军<国际申请>=<国际公布> |
地址: | 100102 北京市朝阳区阜*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 提取 方法 装置 系统 | ||
本发明公开了一种提取来自一个或者多个数据源的数据的方法,一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键‑值对形式的数据项,该数据提取方法包括步骤:对于一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;解析一条数据并提取出该条数据所包括的一个或者多个数据项,对于每个数据项:提取构成该数据项的键‑值对,根据该条数据的数据源从数据类型表中确定出所提取的键对应的数据类型;以及利用该数据类型对应的数据校验方法对所提取的键‑值对中的值进行校验,若校验通过则提取成功,记录提取的键‑值对中的值。本发明还公开了相应的数据提取装置和系统。
技术领域
本发明数据提取技术领域,尤其是数据提取方法、装置及系统。
背景技术
在当前的大数据环境下,如何从海量的数据,如HTTP访问日志、物联网数据等中准确提取出需要的数据信息,对于分析用户行为、喜好、习惯等,或者是预测用户行为、改善广告投放效果等均具有十分重要的意义。
以从URL(Universal Resource Locator,统一资源定位符)中提取数据为例,一般地,通过预定的正则表达式对数据进行全文匹配,只要命中,就把匹配到的数据提取出来,并将其类型指定为预定正则表达式对应的类型。通过实践发现,该方案具有错误率高的缺点。例如,某些数据,只有一部分内容符合正则表达式规则,也会被识别成对应的数据类型,被提取出来;或者,某些数据其类型不是正则表达式对应的数据类型,但在大量数据中,数据中的部分内容刚好符合正则表达式规则,这部分数据就会被错误的提取出来。
因此,需要一种数据提取方法,能够从来自各种数据源的数据中准确提取出数据、并保证数据提取的效率。
发明内容
为此,本发明提供了数据提取方法、装置及系统,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种提取来自一个或者多个数据源的数据的方法,一个或者多个数据源中的每个数据源包括多条数据,每条数据包括一个或者多个具有键-值对形式的数据项,该数据提取方法包括步骤:对于一个或者多个数据源中的每个数据源,确定每个键对应的数据类型,生成数据类型表;解析一条数据并提取出该条数据所包括的一个或者多个数据项,对于每个数据项:提取构成该数据项的键-值对,根据该条数据的数据源从数据类型表中确定出所提取的键对应的数据类型;以及利用该数据类型对应的数据校验方法对所提取的键-值对中的值进行校验,若校验通过则提取成功,记录提取的键-值对中的值。
可选地,在根据本发明的数据提取方法中,生成数据类型表的步骤包括:对于一个或者多个数据源中的每个数据源,对数据进行采样,以获得第一数目条数据;对于第一数目条数据中的每条数据,逐条解析数据并提取出所有的数据项;对每个数据项中的键-值对中键对应的值,通过正则表达式和/或数据校验方法分析其数据类型,作为该键对应的数据类型;统计每个数据源中、每个键对应的数据类型个数以及与该数据类型对应的值个数;以及从每个键所对应的数据类型中选取对应的值个数占比超过第一阈值的数据类型,确定为该数据源中该键对应的数据类型,并关联存储该数据源中该键与所确定的数据类型,作为数据类型表。
可选地,在根据本发明的数据提取方法中,对于一个或者多个数据源中的每个数据源,对数据进行采样的步骤包括:抽取每种数据源中前第一数目条数据;和/或在每种数据源中随机抽样第一数目条数据;和/或按时间段在每种数据源中抽取第一数目条数据。
可选地,在根据本发明的数据提取方法中,数据类型对应的值个数占比是某个键的某一数据类型对应的值个数占该数据源中该键对应的所有数据类型的值总个数的比值。
可选地,在根据本发明的数据提取方法中,利用该数据类型的数据校验方法对所提取的键-值对中的值进行校验的步骤还包括:利用该数据类型的正则表达式对所提取的键-值对中的值进行校验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道创宇信息技术股份有限公司,未经北京知道创宇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611080168.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:出行方法和装置
- 下一篇:路径轨迹的分析方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置