[发明专利]一种数据仓库主题模型的构建方法和装置在审
| 申请号: | 201811619809.7 | 申请日: | 2018-12-28 |
| 公开(公告)号: | CN111382193A | 公开(公告)日: | 2020-07-07 |
| 发明(设计)人: | 周巧琳;蒋雨青;刘茜;陈东沂;陈少雄;姚小龙 | 申请(专利权)人: | 顺丰科技有限公司 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28 |
| 代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 王俊博 |
| 地址: | 518061 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据仓库 主题 模型 构建 方法 装置 | ||
本申请公开了一种数据仓库主题模型的构建方法和装置。该方法包括:创建并执行ETL任务,所述ETL任务中包含业务数据的主题类型;所述ETL任务用于将所述业务数据集成到数据仓库中;根据所述主题类型对应的业务数据以及预先针对所述业务数据的数据特点而配置的数据计算框架进行主题模型计算,生成所述主题类型对应的主题模型;所述主题模型包括结果集数据;将所述主题模型的结果集数据通过ES接口推送给ES搜索平台,以供用户对所述主题模型的结果集数据进行查询。根据本申请实施例的技术方案,能够有效提高数据仓库主题模型的计算能力和查询速度。
技术领域
本公开一般涉及计算机技术领域,具体涉及网络信息安全领域,尤其涉及一种数据仓库主题模型的构建方法和装置。
背景技术
随着互联网信息技术和企业市场业务的飞速发展,各大企业的数据量呈现指数增长的趋势,数据已经成为企业最重要的资产。在海量业务数据的场景下,如何利用企业大数据仓库快速整合系统的业务数据、挖掘数据价值,从而为企业市场业务运营提供决策支撑,已经成为企业亟待解决的难题。因此,探索高效建设和应用数据仓库主题模型的解决方案成为关键。
目前,数据仓库主题模型的建设主要包含基础数据集成、主题模型计算以及建模结果查询等多个环节。其中,关于主题模型计算以及建模结果查询,目前业界仍广泛利用Mysql、Oracle或hive进行存储和计算查询,这种实现方式存在下述缺陷:
mysql和oracle计算速度慢,并且无法支撑大规模数据计算;hive虽然具有大数据计算能力,但对用户查询的响应速度慢,不适合应用于用户快速查询数据仓库主题模型的即时响应等场景。
因此,如何提高数据仓库主题模型的计算能力和查询速度,成为大数据处理应用领域的研究课题。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种能够有效提高数据仓库主题模型的计算能力和查询速度的方案。
第一方面,本申请实施例提供了一种数据仓库主题模型的构建方法,所述方法包括:
创建并执行ETL任务,所述ETL任务中包含业务数据的主题类型;所述ETL任务用于将所述业务数据集成到数据仓库中;
根据所述主题类型对应的业务数据以及预先针对所述业务数据的数据特点而配置的数据计算框架进行主题模型计算,生成所述主题类型对应的主题模型;所述主题模型包括结果集数据;
将所述主题模型的结果集数据通过ES接口推送给ES搜索平台,以供用户对所述主题模型的结果集数据进行查询。
第二方面,本申请实施例还提供了一种数据仓库主题模型的构建装置,所述装置包括:
ETL单元,用于创建并执行ETL任务,所述ETL任务中包含业务数据的主题类型;所述ETL任务用于将所述业务数据集成到数据仓库中;
建模单元,用于根据所述主题类型对应的业务数据以及预先针对所述业务数据的数据特点而配置的数据计算框架进行主题模型计算,生成所述主题类型对应的主题模型;所述主题模型包括结果集数据;
查询单元,用于将所述主题模型的结果集数据通过ES接口推送给ES搜索平台,以供用户对所述主题模型的结果集数据进行查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811619809.7/2.html,转载请声明来源钻瓜专利网。





