[发明专利]基于弹性分布式数据模型的多维度信息提取方法及装置在审
申请号: | 202010034181.5 | 申请日: | 2020-01-14 |
公开(公告)号: | CN110851432A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 冯世伟;吴正好;李锁在;韩鹏;刘涛;朱慧彤;闫永灿;席邵宾;张超超;胡坚升;乔拥俊 | 申请(专利权)人: | 中软信息系统工程有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/25;G06F16/28;G06F16/951 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
地址: | 102209 北京市昌平区北七家*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 弹性 分布式 数据模型 多维 信息 提取 方法 装置 | ||
1.一种基于弹性分布式数据模型的多维度信息提取方法,其特征在于,包括:
获取第一预设格式的数据;其中,所述第一预设格式的数据为根据数据源中的数据得到,所述数据源中的数据包括网页数据以及业务数据;
利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理;
将数据处理后的数据依据维度进行数据标注;
根据数据标注的结果生成数据维度表,以完成对所述第一预设格式的数据的信息提取。
2.根据权利要求1所述的基于弹性分布式数据模型的多维度信息提取方法,其特征在于,所述利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理,包括:
将所述第一预设格式的数据通过所述弹性分布式数据模型转化为弹性分布式数据集;
对所述弹性分布式数据集进行数据清洗;
对数据清洗后的弹性分布式数据集进行数据分解;
对分解后的弹性分布式数据集进行实体及属性值去重;
对去重后的弹性分布式数据集进行关系及属性关联;
对关联后的弹性分布式数据集进行多维度分析。
3.根据权利要求1所述的基于弹性分布式数据模型的多维度信息提取方法,其特征在于,在所述获取第一预设格式的数据之前,所述基于弹性分布式数据模型的多维度信息提取方法还包括:
获取所述数据源中的数据;
对所述数据源中的数据进行数据格式分类;其中,所述数据源中的数据包括结构化数据、半结构化数据以及非结构化数据;
从数据格式分类后的数据中提取所述第一预设格式的数据。
4.根据权利要求3所述的基于弹性分布式数据模型的多维度信息提取方法,其特征在于,所述获取数据源中的数据包括:
通过爬虫技术获取所述网页数据;以及,
通过驱动获取所述业务数据。
5.根据权利要求3所述的基于弹性分布式数据模型的多维度信息提取方法,其特征在于,在所述从数据格式分类后的数据中提取所述第一预设格式的数据之前,所述基于弹性分布式数据模型的多维度信息提取方法还包括:
利用预先训练好的分词模型对分类得到的非结构化数据以及半结构化数据进行数据分词;
对分词后的数据进行依存分析;
根据所述依存分析利用依存关系的空间关系抽取算法对数据进行提取。
6.根据权利要求5所述的基于弹性分布式数据模型的多维度信息提取方法,其特征在于,在所述利用预先训练好的分词模型对分类得到的非结构化数据以及半结构化数据进行数据分词之前,所述基于弹性分布式数据模型的多维度信息提取方法还包括:
获取业务训练样本;
利用所述业务训练样本对分词模型进行训练,获得所述预先训练好的分词模型。
7.根据权利要求1-6任一项所述的基于弹性分布式数据模型的多维度信息提取方法,其特征在于,在所述根据数据标注的结果生成数据维度表之后,所述基于弹性分布式数据模型的多维度信息提取方法还包括:
将所述数据维度表保存为第二预设格式的数据,并输出所述第二预设格式的数据。
8.一种基于弹性分布式数据模型的多维度信息提取装置,其特征在于,包括:
第一获取模块,用于获取第一预设格式的数据;其中,所述第一预设格式的数据为根据数据源中的数据得到,所述数据源中的数据包括网页数据以及业务数据;
数据处理模块,用于利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理;
数据标注模块,用于将数据处理后的数据依据维度进行数据标注;
生成模块,用于根据数据标注的结果生成数据维度表,以完成对所述第一预设格式的数据的信息提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中软信息系统工程有限公司,未经中软信息系统工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010034181.5/1.html,转载请声明来源钻瓜专利网。