大家好,我是Lee。
上次介绍了airflow的元数据表log,里面的主要字段event是干嘛的,怎么识别手动操作和系统操作,今天就说下dag表中的一些字段,是什么意思,该怎么用。

Focus on truth. welcome to correct.
airflow调度系统,基本介绍看这篇文章:
https://chenzuoli.github.io/2021/10/16/airflow%E4%BB%8B%E7%BB%8D/
airflow架构,看这篇文章:
https://chenzuoli.github.io/2021/10/24/airflow%E6%9E%B6%E6%9E%84%E8%AF%A6%E8%A7%A3/
它能实现我们日常工作中离线任务的调度,下面来看看使用mysql或者postgresql作为元数据库时,库中的各个表都是干什么用的。

关于airflow,大家应该很清楚它是干嘛的,怎么使用,那么它底层的调度原理到底是啥样的呢?
我大概从2018年下半年,开始使用airflow,第一次使用时,是团队一起调研的,所以,从搭建,到基本使用,再到参数优化,都是经历过的。
后面进入到另一家公司,也是由于我使用过airflow调度系统才找我进去的,所以会使用airflow调度系统,也算一个优势吧。
在这家公司的话,对airflow的使用,就详细到了每一个功能,包括血缘,与atlas结合、升级、参数化等。于是对airflow有了更深入的了解。
今天就为大家介绍airflow的架构,下面来看看。

我们知道,sql-client.sh可以提供给我们一个sql交互界面,让我们没执行一个sql,就可以看到执行结果,也可以交互式查询表的结果。
其实,我们也可以通过sql-client提交sql脚本,我们来看下。

说到flink,大家就会想到实时处理引擎、实时数仓,我也是,刚刚进入实时数仓领域,在工作中摸索前进,最开始接触的mysql-cdc connector,再接触到jdbc connector,下面来说说他们之间的区别。
