数据仓库中数据质量稽核是我们建设仓库中的重要部分,及时监控,及时发现问题,解决问题,尽量将问题范围缩小到最小。
一个简单的数据质量稽核自动化工具,通过配置稽核sql,自动化发送报警。
实现常见的稽核规则的检查,例:数据的一致性、完整性、及时性检查,指标的历史波动检查、关联检查、指标平衡检查、其他根据实际业务制定的业务规则检查。
监控规则:
- 监控周期:每10分钟;
- 监控内容:
a. 24小时内有数据;
b. 【累计指标】本批次大于等于上一批次值;
c. 字段值是否重复;
d. 业务监控:是否出现异常值:批次时间为10的整数倍(非小时)
数据稽核,主要是为了考察一个核心系统带N个周边系统,由于设计思路、数据校验规则、应用程序版本变更、系统间接口异常等导致的各种数据差异,进而分析差异原因,采取短期或长期的治理策略。
整个稽核系统的架构,主要分为数据引入、稽核引擎、差异展示几部分。稽核的规则,主要分为表内、表间、系统间的关联性校验,字典校验,数据合法性校验等。作为一套稽核系统,主要还是考察系统间的数据校验,分为数据的有无和属性的一致性检查。
作为用于多方稽核的稽核引擎,在设计上主要考虑以下几点:
- 对资源的消耗,分为时间、cpu、内存、存储
- 元数据的管理和配置功能,稽核规则的配置功能
- 规则的解析引擎
- 结果的存放,能够快速提取各种场景需要的数据,核心的还是差异结果的计算。
Where there is a problem, there is a way.
书山有路勤为径,学海无涯苦作舟。
欢迎关注微信公众号:【程序员写书】
喜欢宠物的朋友可以关注:【电巴克宠物Pets】
一起学习,一起进步。
