airflow是一个基于python的轻量级调度系统,管理crontab表达式进行任务的调度,我们只需要编写相对应的python脚本,即可完成任务的调度。

目前airflow已经与各关系型数据库(mysql oracle postgresql等)、大数据相关数据库组件(hive hbase es等)建立了联系,旨在更流畅地完成任务的调度,也可以自定义相关operator,完成与其他组件的关联。
它的特点就是,动态的大规模的可扩展的调度平台。
动态,意思就是在任务运行过程中,可以根据任务运行的状态、结果,随时改变任务流。
airflow中有2个比较重要的角色,一个是operator,另一个是sensor:
- operator分了很多类,比如说bashoperator pythonoperator mysqloperator等,也就是说,你想执行什么操作,都可以通过不同的operator去实现,如果没有,你可以自定义实现。
- sensor是一个检查工具,它检查的操作可以是时间,也可以是某个文件是否存在等等状态性的东西,如果检查成功,那么任务就会继续往下跑,如果检查不成功,那么就过段时间继续检查。
airflow打开了它的大门,基本上可以与任何组件进行关联。如果官方目前没有出现,就可以无脑自定义。
好了,这篇文章就到这里,下次将airflow的安装及使用。
祝大家工作顺利,事业有成。
每天进步一点点,你迟早会秃头,成为强者。
欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
喜欢宠物的朋友可以关注:看一只流浪狗的逆袭
一起学习,一起进步。
