Airflow 中文文档:教程

本教程将向您介绍一些基本的Airflow概念,对象及其在编写第一个管道时的用法。

示例管道定义

以下是基本管道定义的示例。 如果这看起来很复杂,请不要担心,下面将逐行说明。

 """
Code that goes along with the Airflow tutorial located at:
https://github.com/apache/incubator-airflow/blob/master/airflow/example_dags/tutorial.py
"""
from airflow import DAG
from airflow.operators.bash_operator import BashOperator
from datetime import datetime , timedelta

default_args = {
    ‘owner‘ : ‘airflow‘ ,
    ‘depends_on_past‘ : False ,
    ‘start_date‘ : datetime ( 2015 , 6 , 1 ),
    ‘email‘ : [ ‘[email protected]‘ ],
    ‘email_on_failure‘ : False ,

阅读全文/改进本文

原文地址:https://www.cnblogs.com/wizardforcel/p/10034377.html

时间: 2024-11-09 09:45:22

Airflow 中文文档:教程的相关文章

Bootstrap 中文文档教程

Bootstrap 中文文档教程 全局样式和grid布局—Bootstrap中文使用指南 全局样式1.要求html5文档类型 Bootstrap使用的css属性和html元素依赖于html5的文档类型声明,请确保每个Bootstrap的页面包含下面的代码: <!DOCTYPE html> <html> ... </html> 2.排版和链接样式 全局的排版和链接样式放在scaffolding.less文件内(关于less教程后面会有详细说明).默认做了如下处理: 移除b

Airflow 中文文档:数据分析

使用数据生产效率的一部分是拥有正确的武器来分析您正在使用的数据. Airflow提供了一个简单的查询界面来编写SQL并快速获得结果,以及一个图表应用程序,可以让您可视化数据. 临时查询 adhoc查询UI允许与Airflow中注册的数据库连接进行简单的SQL交互. https://airflow.apache.org/_images/adhoc.png 图表 基于flask-admin和highcharts构建的简单UI允许轻松构建数据可视化和图表. 使用标签,SQL,图表类型填写表单,从环境的

Airflow 中文文档:管理连接

Airflow需要知道如何连接到您的环境. 其他系统和服务的主机名,端口,登录名和密码等信息在UI的Admin->Connection部分中处理. 您将创作的管道代码将引用Connection对象的"conn_id". https://github.com/apachecn/airflow-doc-zh/raw/master/img/b1caba93dd8fce8b3c81bfb0d58cbf95.jpg 可以使用UI或环境变量创建和管理连接. 有关更多信息,请参阅Connenc

Airflow 中文文档:用Celery扩大规模

CeleryExecutor是您扩展工人数量的方法之一. 为此,您需要设置Celery后端( RabbitMQ , Redis ,...)并更改airflow.cfg以将执行程序参数指向CeleryExecutor并提供相关的Celery设置. 有关设置Celery代理的更多信息,请参阅有关该主题的详尽Celery文档 . 以下是您的员工的一些必要要求: 需要安装airflow,CLI需要在路径中 整个群集中的气流配置设置应该是同构的 在worker上执行的操作符需要在该上下文中满足其依赖项.

Airflow 中文文档:初始化数据库后端

如果您想对Airflow进行真正的试驾,您应该考虑设置一个真正的数据库后端并切换到LocalExecutor. 由于Airflow是使用优秀的SqlAlchemy库与其元数据进行交互而构建的,因此您应该能够使用任何支持作为SqlAlchemy后端的数据库后端. 我们建议使用MySQL或Postgres . 注意 我们依赖更严格的MySQL SQL设置来获得合理的默认值. 确保在<cite>[mysqld]</cite>下的my.cnf中指定了<cite>explicit

Airflow 中文文档:保护连接

默认情况下,Airflow将在元数据数据库中以纯文本格式保存连接的密码. 在安装过程中强烈建议使用crypto包. crypto包确实要求您的操作系统安装了libffi-dev. 如果最初未安装crypto软件包,您仍可以通过以下步骤为连接启用加密: 安装crypto包pip install apache-airflow[crypto] 使用下面的代码片段生成fernet_key. fernet_key必须是base64编码的32字节密钥. from cryptography.fernet im

Airflow 中文文档:安装

获得气流 安装最新稳定版Airflow的最简单方法是使用pip : pip install apache-airflow 您还可以安装Airflow,支持s3或postgres等额外功能: pip install apache-airflow [ postgres,s3 ] 注意 GPL依赖 默认情况下,Apache Airflow的一个依赖项是拉入GPL库('unidecode'). 如果这是一个问题,您可以通过发出export SLUGIFY_USES_TEXT_UNIDECODE=yes强

Airflow 中文文档:设置配置选项

第一次运行Airflow时,它会在$AIRFLOW_HOME目录中创建一个名为airflow.cfg的文件(默认情况下为~/airflow $AIRFLOW_HOME ). 此文件包含Airflow的配置,您可以对其进行编辑以更改任何设置. 您还可以使用以下格式设置带有环境变量的选项: $AIRFLOW__{SECTION}__{KEY} (注意双下划线). 例如,元数据库连接字符串可以在airflow.cfg设置,如下所示: [ core ] sql_alchemy_conn = my_con

Airflow 中文文档:写日志

在本地编写日志 用户可以使用base_log_folder设置在airflow.cfg指定日志文件夹. 默认情况下,它位于AIRFLOW_HOME目录中. 此外,用户可以提供远程位置,以便在云存储中存储日志和日志备份. 在Airflow Web UI中,本地日志优先于远程日志. 如果找不到或访问本地日志,将显示远程日志. 请注意,只有在任务完成(包括失败)后才会将日志发送到远程存储. 换句话说,运行任务的远程日志不可用. 日志作为{dag_id}/{task_id}/{execution_dat