[发明专利]基于弹性分布式数据模型的多维度信息提取方法及装置在审
申请号: | 202010034181.5 | 申请日: | 2020-01-14 |
公开(公告)号: | CN110851432A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 冯世伟;吴正好;李锁在;韩鹏;刘涛;朱慧彤;闫永灿;席邵宾;张超超;胡坚升;乔拥俊 | 申请(专利权)人: | 中软信息系统工程有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/25;G06F16/28;G06F16/951 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
地址: | 102209 北京市昌平区北七家*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 弹性 分布式 数据模型 多维 信息 提取 方法 装置 | ||
本申请提供一种基于弹性分布式数据模型的多维度信息提取方法及装置,方法包括:获取第一预设格式的数据;利用弹性分布式数据模型对第一预设格式的数据进行数据处理;将数据处理后的数据依据维度进行数据标注;根据数据标注的结果生成数据维度表,以完成对第一预设格式的数据的信息提取。因此,可以根据网页数据以及业务数据得到第一预设格式的数据,然后利用弹性分布式数据模型对上述数据进行数据处理最终实现对网页数据以及业务数据的信息提取。其中,利用弹性分布式数据模型进行信息提取时,可以对海量的数据进行操作,从而增加信息提取的工作效率;同时,具有强大的复原能力,可以实现多维度的信息提取,从而充分展示数据之间的关联性。
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于弹性分布式数据模型的多维度信息提取方法及装置。
背景技术
现有技术中,主流的信息提取方式一般是基于纯语言的技术或者基于浏览器/服务器(Browser/Server,B/S)架构等轻量级的数据仓库技术(Extract-Transform-Load,ETL),这些技术具有容量小、速度慢、灵活性差、数据之间较为独立、没有关联性的问题,不利于后续对提取到的信息进行进一步的处理。
发明内容
本申请实施例的目的在于提供一种基于弹性分布式数据模型的多维度信息提取方法及装置,用以解决现有技术容量小,提取的数据较为独立、没有关联性的技术问题。
为了实现上述目的,本申请实施例所提供的技术方案如下所示:
第一方面,本申请实施例提供一种基于弹性分布式数据模型的多维度信息提取方法,包括:获取第一预设格式的数据;其中,所述第一预设格式的数据为根据数据源中的数据得到,所述数据源中的数据包括网页数据以及业务数据;利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理;将数据处理后的数据依据维度进行数据标注;根据数据标注的结果生成数据维度表,以完成对所述第一预设格式的数据的信息提取。因此,可以根据网页数据以及业务数据得到第一预设格式的数据,然后利用弹性分布式数据模型对第一预设格式的数据进行数据处理最终实现对网页数据以及业务数据的信息提取。其中,利用弹性分布式数据模型进行信息提取时,可以对海量的数据进行操作,从而增加信息提取的工作效率;同时,具有强大的复原能力,可以实现多维度的信息提取,从而充分展示数据之间的关联性。
在本申请的可选实施例中,所述利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理,包括:将所述第一预设格式的数据通过所述弹性分布式数据模型转化为弹性分布式数据集;对所述弹性分布式数据集进行数据清洗;对数据清洗后的弹性分布式数据集进行数据分解;对分解后的弹性分布式数据集进行实体及属性值去重;对去重后的弹性分布式数据集进行关系及属性关联;对关联后的弹性分布式数据集进行多维度分析。因此,可以利用弹性分布式模型将第一预设格式的数据转化为弹性分布式数据集,由于对大量数据进行分布式运算比常用方法计算同级别量级数据快百倍,所以可以增加信息提取的效率。此外,通过将保存好的数据转化到弹性分布式数据模型中,对数据进行分解、去重关联等分析处理后,可以得到关联性较强的数据。
在本申请的可选实施例中,在所述获取第一预设格式的数据之前,所述基于弹性分布式数据模型的多维度信息提取方法还包括:获取所述数据源中的数据;对所述数据源中的数据进行数据格式分类;其中,所述数据源中的数据包括结构化数据、半结构化数据以及非结构化数据;从数据格式分类后的数据中提取所述第一预设格式的数据。因此,第一预设格式的数据可以是根据数据源中的数据得到的,通过对第一预设格式的数据进行提取,可以得到数据源中的数据提取结果,以应用于舆情分析、搜索、推荐系统等领域。
在本申请的可选实施例中,所述获取数据源中的数据包括:通过爬虫技术获取所述网页数据;以及,通过驱动获取所述业务数据。因此,数据源中的数据可以包括网页数据以及业务数据,由于其来源不同,所以获取的方式也不相同,可以利用爬虫技术爬取网页以获得网页数据、利用相关驱动采集信息系统中的业务数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中软信息系统工程有限公司,未经中软信息系统工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010034181.5/2.html,转载请声明来源钻瓜专利网。