Airflow 中文文档:安装

获得气流

安装最新稳定版Airflow的最简单方法是使用pip :

pip install apache-airflow

您还可以安装Airflow,支持s3postgres等额外功能:

pip install apache-airflow [ postgres,s3 ]

注意

GPL依赖

默认情况下,Apache Airflow的一个依赖项是拉入GPL库(‘unidecode‘)。 如果这是一个问题,您可以通过发出export SLUGIFY_USES_TEXT_UNIDECODE=yes强制非GPL库,然后继续正常安装。 请注意,每次升级都需要指定。 另请注意,如果<cite>系统</cite>中已存在<cite>unidecode,</cite>则仍将使用依赖关系。

阅读全文/改进本文

原文地址:https://www.cnblogs.com/wizardforcel/p/10034375.html

时间: 2024-07-30 07:19:51

Airflow 中文文档:安装的相关文章

Airflow 中文文档:数据分析

使用数据生产效率的一部分是拥有正确的武器来分析您正在使用的数据. Airflow提供了一个简单的查询界面来编写SQL并快速获得结果,以及一个图表应用程序,可以让您可视化数据. 临时查询 adhoc查询UI允许与Airflow中注册的数据库连接进行简单的SQL交互. https://airflow.apache.org/_images/adhoc.png 图表 基于flask-admin和highcharts构建的简单UI允许轻松构建数据可视化和图表. 使用标签,SQL,图表类型填写表单,从环境的

Airflow 中文文档:用Celery扩大规模

CeleryExecutor是您扩展工人数量的方法之一. 为此,您需要设置Celery后端( RabbitMQ , Redis ,...)并更改airflow.cfg以将执行程序参数指向CeleryExecutor并提供相关的Celery设置. 有关设置Celery代理的更多信息,请参阅有关该主题的详尽Celery文档 . 以下是您的员工的一些必要要求: 需要安装airflow,CLI需要在路径中 整个群集中的气流配置设置应该是同构的 在worker上执行的操作符需要在该上下文中满足其依赖项.

Airflow 中文文档:保护连接

默认情况下,Airflow将在元数据数据库中以纯文本格式保存连接的密码. 在安装过程中强烈建议使用crypto包. crypto包确实要求您的操作系统安装了libffi-dev. 如果最初未安装crypto软件包,您仍可以通过以下步骤为连接启用加密: 安装crypto包pip install apache-airflow[crypto] 使用下面的代码片段生成fernet_key. fernet_key必须是base64编码的32字节密钥. from cryptography.fernet im

Airflow 中文文档:管理连接

Airflow需要知道如何连接到您的环境. 其他系统和服务的主机名,端口,登录名和密码等信息在UI的Admin->Connection部分中处理. 您将创作的管道代码将引用Connection对象的"conn_id". https://github.com/apachecn/airflow-doc-zh/raw/master/img/b1caba93dd8fce8b3c81bfb0d58cbf95.jpg 可以使用UI或环境变量创建和管理连接. 有关更多信息,请参阅Connenc

Airflow 中文文档:初始化数据库后端

如果您想对Airflow进行真正的试驾,您应该考虑设置一个真正的数据库后端并切换到LocalExecutor. 由于Airflow是使用优秀的SqlAlchemy库与其元数据进行交互而构建的,因此您应该能够使用任何支持作为SqlAlchemy后端的数据库后端. 我们建议使用MySQL或Postgres . 注意 我们依赖更严格的MySQL SQL设置来获得合理的默认值. 确保在<cite>[mysqld]</cite>下的my.cnf中指定了<cite>explicit

Airflow 中文文档:设置配置选项

第一次运行Airflow时,它会在$AIRFLOW_HOME目录中创建一个名为airflow.cfg的文件(默认情况下为~/airflow $AIRFLOW_HOME ). 此文件包含Airflow的配置,您可以对其进行编辑以更改任何设置. 您还可以使用以下格式设置带有环境变量的选项: $AIRFLOW__{SECTION}__{KEY} (注意双下划线). 例如,元数据库连接字符串可以在airflow.cfg设置,如下所示: [ core ] sql_alchemy_conn = my_con

Airflow 中文文档:快速开始

安装快速而直接. # airflow needs a home, ~/airflow is the default, # but you can lay foundation somewhere else if you prefer # (optional) export AIRFLOW_HOME = ~/airflow # install from pypi using pip pip install apache-airflow # initialize the database airfl

Airflow 中文文档:写日志

在本地编写日志 用户可以使用base_log_folder设置在airflow.cfg指定日志文件夹. 默认情况下,它位于AIRFLOW_HOME目录中. 此外,用户可以提供远程位置,以便在云存储中存储日志和日志备份. 在Airflow Web UI中,本地日志优先于远程日志. 如果找不到或访问本地日志,将显示远程日志. 请注意,只有在任务完成(包括失败)后才会将日志发送到远程存储. 换句话说,运行任务的远程日志不可用. 日志作为{dag_id}/{task_id}/{execution_dat

Airflow 中文文档:UI /截图

通过Airflow UI,您可以轻松监控数据管道并对其进行故障排除. 以下是您可以在Airflow UI中找到的一些功能和可视化的快速概述. DAGs查看 您环境中的DAG列表,以及一组有用页面的快捷方式. 您可以一目了然地查看成功,失败或当前正在运行的任务数量. https://airflow.apache.org/_images/dags.png 树视图 跨越时间的DAG的树表示. 如果管道延迟,您可以快速查看不同步骤的位置并识别阻塞步骤. https://airflow.apache.or