乐知付加密服务平台

如果你有资源, 平台可以帮你实现内容变现, 无需搭建知识付费服务平台。

点击访问官方网站 https://lezhifu.cc

扫码关注公众号 乐知付加密服务平台-微信公众号
关于数据仓库的一些理解 | chenzuoli's blog

关于数据仓库的一些理解

从2017年开始接触数据仓库,从基本的一些数据清洗工作,到数据仓库层次建设,搭建和维护仓库的调度系统,到数据集市,报表开发等等,到现在工作中的数据湖,说下我对数据的一个理解,以及如何才能发挥数据的最大价值,驱动业务。

先来说下仓库的概念,仓库能够提供快速存取的功能,存储原始零部件,还有加工后的中间件,及成品。那么数据仓库呢,也会有对应的功能,存储业务原始数据,加工汇总后的数据,还有加工完成最后供下游使用的数据。这些数据,我们从业务系统那边抽取过来,做相对应的存储和加工处理,得到我们想要的分析结果。
那么这里就有分层的概念:
贴源层(stg ods),就是我们从业务系统抽取过来的原始数据,经过抽取,实时或者离线,增量或者全量,等等方式,到我们的基础数据层,基础数据层,言外之意,即是数据的明细。
中间层(dw dm),这一层,就是我们基于数据仓库,进行统一规则,并进行轻度的汇总,为数据模型做准备。模型的建设,基于不同的建模方法,建设相应的主题模型表,达到易取易用的目的。
集市层(app),这一层,我们会从模型中按照不同维度进行指标的开发,进行统计计算,得到分析结果,对外提供服务支持。

所以数据仓库的建设过程,就基于我们对业务的理解,管理好对应的数据,统一规范,达到快速存取的目的。

当然为了方便查询,保证数据仓库的数据质量及系统的稳定运行,我们还要做的就是元数据管理和仓库监控。

元数据管理,即管理数据的数据,随着业务的发展,仓库中的基础数据、模型越来越丰富,越来越多样,那么我们需要管理这些数据,做到心中有数,平台有哪些数据,哪些模型,哪些集市,数据源有哪些,去向何方,数据之间的依赖关系是什么样的,在碰到基础数据修复时,如何快速定位到下游是哪些,一并处理,快速响应呢,这就需要元数据管理。
如何做元数据管理呢,元数据分为技术元数据和业务元数据,技术元数据,即表结构、任务运行数据等等,我们需要从对应的业务系统、仓库系统、调度系统、监控系统中获取到对应的元数据信息,加载到元数据管理系统中,并解析任务运行的日志,得到任务、表、血缘他们之间的关系,然后就是做出相对应的现状结构图,完成元数据的爬取,展现在管理系统中。

仓库监控怎么做呢?我们的仓库运行是否健康,有哪些问题,数据使用情况怎么样,数据增长情况怎么样,我们就需要对当前仓库进行一个统计分析,得到仓库的健康状况,以此来预判仓库的走向,监控任务的变化,及时做出响应,避免出现问题,再来解决,防范于未然。当然我们也需要对当前的数据做一些监控工作,比如,仓库中的模型任务,检测到下游使用方只有1到2个,那么这个模型建设得是不是不好?或者某一个任务出现了数据量突然猛烈增长,是不是出现异常了?这些监控,我们应该做到,而且不能少。

数据服务呢?数据分析结果出来了,那你怎么提供服务呢?BI商业智能是你做的最正确的事情,把数据做成图表,便于理解,把数据图分享出去,再写一些分析类文章,商业报告是不是就出来了,现在的许多商业报告,基本都是基于数据统计的结果。当然你也可以数据服务接口,接口方式对外提供服务也没问题。

还有呢?仓库计算任务需要调度系统吧,仓库数据查询,需要OLAP即时查询分析系统吧,这个你也要有的。

所以,做好一个数据仓库,如何体现数据的价值,让仓库发挥真正的作用,而不是一堆垃圾数据集合,路还很长呢?


Keep Reading, Keep Writing, Keep Learning.

-------------本文结束感谢您的阅读-------------