自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

龙哥盟

人最大的痛苦就是说一些自己都不相信的话

翻译 Airflow 中文文档:API 参考

运营商 运算符允许生成某些类型的任务,这些任务在实例化时成为DAG中的节点。 所有运算符都派生自BaseOperator ,并以这种方式继承许多属性和方法。 有关更多详细信息,请参阅BaseOperator文档。 有三种主要类型的运营商: 执行操作的操作员,或告诉其他系统执行操作的操作员 传输操...

2018-11-29 18:08:10 9223 0

翻译 Airflow 中文文档:常见问题

为什么我的任务没有安排好? 您的任务可能无法安排的原因有很多。 以下是一些常见原因: 您的脚本是否“编译”,Airflow引擎是否可以解析它并找到您的DAG对象。 要对此进行测试,您可以运行airflow list_dags并确认您的DAG显示在列表中。 您还可以运行airflow list_t...

2018-11-29 18:07:48 7883 0

翻译 Airflow 中文文档:Lineage

注意 Lineage 支持是非常实验性的,可能会发生变化。 Airflow可以帮助跟踪数据的来源,发生的事情以及数据随时间的变化。 这有助于实现审计跟踪和数据治理,还可以调试数据流。 气流通过任务的入口和出口跟踪数据。 让我们从一个例子开始,看看它是如何工作的。 from airflow.ope...

2018-11-29 18:04:46 7833 0

翻译 Airflow 中文文档:集成

反向代理 Azure:Microsoft Azure AWS:亚马逊网络服务 Databricks GCP:Google云端平台 反向代理 可以在反向代理后面设置气流,并能够灵活地设置其端点。 例如,您可以配置反向代理以获取: https : // lab . mycompany . com...

2018-11-29 18:03:37 8108 0

翻译 Airflow 中文文档:实验性 Rest API

Airflow公开了一个实验性的Rest API。 它可以通过网络服务器获得。 端点可在/ api / experimental /获得。 请注意,我们希望端点定义发生变化。 端点 这是占位符,直到招摇定义处于活动状态 / api / experimental / dags / <...

2018-11-29 18:02:32 9562 0

翻译 Airflow 中文文档:时区

默认情况下启用对时区的支持。 Airflow在内部和数据库中以UTC格式存储日期时间信息。 它允许您使用时区相关的计划运行DAG。 目前,Airflow不会将其转换为用户界面中的最终用户时区。 它始终以UTC显示。 此外,操作符中使用的模板也不会被转换。 时区信息是暴露出来的,由DAG的作者负责。...

2018-11-29 18:01:36 9204 0

翻译 Airflow 中文文档:安全

默认情况下,所有门都打开。 限制对Web应用程序的访问的一种简单方法是在网络级别或使用SSH隧道执行此操作。 但是,可以通过使用其中一个提供的后端或创建自己的后端来打开身份验证。 请务必查看Experimental Rest API以保护API。 Web身份验证 密码 最简单的身份验证机制之一是要...

2018-11-29 18:00:29 8477 0

翻译 Airflow 中文文档:插件

Airflow内置了一个简单的插件管理器,可以通过简单地删除$AIRFLOW_HOME/plugins文件夹中的文件,将外部功能集成到其核心。 plugins文件夹中的python模块将被导入, 钩子 , 操作符 , 传感器 , 宏 , 执行器和Web 视图将集成到Airflow的主要集合中,并可...

2018-11-29 17:59:25 7439 0

翻译 Airflow 中文文档:调度和触发器

Airflow调度程序监视所有任务和所有DAG,并触发已满足其依赖关系的任务实例。 在幕后,它监视并与其可能包含的所有DAG对象的文件夹保持同步,并定期(每分钟左右)检查活动任务以查看是否可以触发它们。 Airflow调度程序旨在作为Airflow生产环境中的持久服务运行。 要开始,您需要做的就是...

2018-11-29 17:58:31 8540 0

翻译 Airflow 中文文档:命令行界面

Airflow具有非常丰富的命令行界面,允许在DAG上执行多种类型的操作,启动服务以及支持开发和测试。 usage : airflow [ - h ] { resetdb , render , variables , connections , create_use...

2018-11-29 17:57:32 7358 0

翻译 Airflow 中文文档:数据分析

使用数据生产效率的一部分是拥有正确的武器来分析您正在使用的数据。 Airflow提供了一个简单的查询界面来编写SQL并快速获得结果,以及一个图表应用程序,可以让您可视化数据。 临时查询 adhoc查询UI允许与Airflow中注册的数据库连接进行简单的SQL交互。 图表 基于flask-admi...

2018-11-29 13:51:04 8373 0

翻译 Airflow 中文文档:概念

Airflow Platform是用于描述,执行和监控工作流的工具。 核心理念 DAG的 在Airflow中, DAG (或定向非循环图)是您要运行的所有任务的集合,以反映其关系和依赖关系的方式进行组织。 例如,一个简单的DAG可以包含三个任务:A,B和C.可以说A必须在B可以运行之前成功运行,但...

2018-11-29 13:49:52 8110 0

翻译 Airflow 中文文档:UI /截图

通过Airflow UI,您可以轻松监控数据管道并对其进行故障排除。 以下是您可以在Airflow UI中找到的一些功能和可视化的快速概述。 DAGs查看 您环境中的DAG列表,以及一组有用页面的快捷方式。 您可以一目了然地查看成功,失败或当前正在运行的任务数量。 树视图 跨越时间的DAG的...

2018-11-29 13:48:31 7593 0

翻译 Airflow 中文文档:使用测试模式配置

Airflow具有一组固定的“测试模式”配置选项。 您可以随时通过调用airflow.configuration.load_test_config()来加载它们(注意此操作不可逆!)。 但是,在您有机会调用load_test_config()之前,会加载一些选项(如DAG_FOLDER)。 为了急...

2018-11-29 13:46:39 7322 0

翻译 Airflow 中文文档:用upstart运行Airflow

Airflow可以与基于upstart的系统集成。 Upstart会在系统启动时自动启动/etc/init具有相应*.conf文件的所有气流服务。 失败时,upstart会自动重启进程(直到达到*.conf文件中设置的重新生成限制)。 您可以在scripts/upstart目录中找到示例新贵作业文...

2018-11-29 13:45:38 8418 0

翻译 Airflow 中文文档:使用systemd运行Airflow

Airflow可以与基于系统的系统集成。 这使得观察您的守护进程变得容易,因为systemd可以在失败时重新启动守护进程。 在scripts/systemd目录中,您可以找到已在基于Redhat的系统上测试过的单元文件。 您可以将它们复制到/usr/lib/systemd/system 。 假设A...

2018-11-29 13:44:30 9828 1

翻译 Airflow 中文文档:使用Mesos扩展(社区贡献)

有两种方法可以将气流作为mesos框架运行: 直接在mesos从站上运行气流任务,要求每个mesos从站安装和配置气流。 在安装了气流的docker容器内运行气流任务,该容器在mesos slave上运行。 任务直接在mesos从站上执行 MesosExecutor允许您在Mesos群集上安排...

2018-11-29 13:43:29 7481 0

翻译 Airflow 中文文档:用Dask扩展

DaskExecutor允许您在Dask分布式群集中运行Airflow任务。 Dask集群可以在单个机器上运行,也可以在远程网络上运行。 有关完整详细信息,请参阅分布式文档 。 要创建集群,首先启动调度程序: # default settings for a local cluster DASK...

2018-11-29 13:41:53 6757 0

翻译 Airflow 中文文档:用Celery扩大规模

CeleryExecutor是您扩展工人数量的方法之一。 为此,您需要设置Celery后端( RabbitMQ , Redis ,…)并更改airflow.cfg以将执行程序参数指向CeleryExecutor并提供相关的Celery设置。 有关设置Celery代理的更多信息,请参阅有关该主题的详...

2018-11-29 13:40:52 7503 0

翻译 Airflow 中文文档:写日志

在本地编写日志 用户可以使用base_log_folder设置在airflow.cfg指定日志文件夹。 默认情况下,它位于AIRFLOW_HOME目录中。 此外,用户可以提供远程位置,以便在云存储中存储日志和日志备份。 在Airflow Web UI中,本地日志优先于远程日志。 如果找不到或访问本...

2018-11-29 13:39:16 10036 0

翻译 Airflow 中文文档:保护连接

默认情况下,Airflow将在元数据数据库中以纯文本格式保存连接的密码。 在安装过程中强烈建议使用crypto包。 crypto包确实要求您的操作系统安装了libffi-dev。 如果最初未安装crypto软件包,您仍可以通过以下步骤为连接启用加密: 安装crypto包pip install a...

2018-11-28 20:14:53 8154 0

翻译 Airflow 中文文档:管理连接

Airflow需要知道如何连接到您的环境。 其他系统和服务的主机名,端口,登录名和密码等信息在UI的Admin->Connection部分中处理。 您将创作的管道代码将引用Connection对象的“conn_id”。 可以使用UI或环境变量创建和管理连接。 有关更多信息,...

2018-11-28 20:13:03 8232 0

翻译 Airflow 中文文档:使用操作器

操作器代表一个理想情况下是幂等的任务。 操作员确定DAG运行时实际执行的内容。 有关更多信息,请参阅Operators Concepts文档和Operators API Reference 。 BashOperator 模板 故障排除 找不到Jinja模板 PythonOperato...

2018-11-28 20:10:20 7676 0

翻译 Airflow 中文文档:初始化数据库后端

如果您想对Airflow进行真正的试驾,您应该考虑设置一个真正的数据库后端并切换到LocalExecutor。 由于Airflow是使用优秀的SqlAlchemy库与其元数据进行交互而构建的,因此您应该能够使用任何支持作为SqlAlchemy后端的数据库后端。 我们建议使用MySQL或Postgr...

2018-11-28 20:08:48 8732 0

翻译 Airflow 中文文档:设置配置选项

第一次运行Airflow时,它会在$AIRFLOW_HOME目录中创建一个名为airflow.cfg的文件(默认情况下为~/airflow $AIRFLOW_HOME )。 此文件包含Airflow的配置,您可以对其进行编辑以更改任何设置。 您还可以使用以下格式设置带有环境变量的选项: $AIRF...

2018-11-28 20:07:35 7848 0

翻译 Airflow 中文文档:教程

本教程将向您介绍一些基本的Airflow概念,对象及其在编写第一个管道时的用法。 示例管道定义 以下是基本管道定义的示例。 如果这看起来很复杂,请不要担心,下面将逐行说明。 """ Code that goes along with the Airflow tuto...

2018-11-28 20:04:42 9222 0

翻译 Airflow 中文文档:安装

获得气流 安装最新稳定版Airflow的最简单方法是使用pip : pip install apache-airflow 您还可以安装Airflow,支持s3或postgres等额外功能: pip install apache-airflow [ postgres,s3 ] 注意 GPL依...

2018-11-28 20:03:06 8383 0

翻译 Airflow 中文文档:快速开始

安装快速而直接。 # airflow needs a home, ~/airflow is the default, # but you can lay foundation somewhere else if you prefer # (optional) export AIRFLOW_HOM...

2018-11-28 20:00:55 8291 0

翻译 Airflow 中文文档:项目

历史 Airflow于2014年10月由Airbnb的Maxime Beauchemin开始。 它是第一次提交的开源,并在2015年6月宣布正式加入Airbnb Github。 该项目于2016年3月加入了Apache Software Foundation的孵化计划。 提交者 @misterc...

2018-11-28 19:58:52 8192 0

原创 TensorFlow HOWTO 2.2 支持向量回归(软间隔)

将上一节的假设改一改,模型就可以用于回归问题。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds import ...

2018-11-27 19:42:17 7125 0

原创 TensorFlow HOWTO 2.1 支持向量分类(软间隔)

在传统机器学习方法,支持向量机算是比较厉害的方法,但是计算过程非常复杂。软间隔支持向量机通过减弱了其约束,使计算变得简单。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib as mpl import...

2018-11-27 19:39:41 8406 0

原创 Airflow 中文文档翻译和改进活动 | ApacheCN

仓库:https://github.com/apachecn/airflow-doc-zh 进度:https://github.com/apachecn/airflow-doc-zh/issues/1 贡献指南:https://github.com/apachecn/airflow-doc-zh/...

2018-11-25 21:50:34 8344 0

转载 统计学习基础(ESL)中文版

ESL 指的是 The Elements of Statistical Learning。因为自己也是统计学专业,所以想研读这本书,同时实现书中的算法及其例子,并尝试解决习题。 说明 参考文献保留原书的写法,如 “Efron and Tibshirani (1993)” 指的是 “Efron, ...

2018-11-25 17:44:43 19362 4

原创 TensorFlow HOWTO 1.4 Softmax 回归

1.4 Softmax 回归 Softmax 回归可以看成逻辑回归在多个类别上的推广。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib as mpl import matplotlib.pyplot...

2018-11-23 21:01:43 9386 0

原创 TensorFlow HOWTO 1.3 逻辑回归

1.3 逻辑回归 将线性回归的模型改一改,就可以用于二分类。逻辑回归拟合样本属于某个分类,也就是样本为正样本的概率。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib as mpl import ma...

2018-11-23 21:00:18 7290 0

原创 TensorFlow HOWTO 1.2 LASSO、岭和 Elastic Net

1.2 LASSO、岭和 Elastic Net 当参数变多的时候,就要考虑使用正则化进行限制,防止过拟合。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import...

2018-11-23 20:58:44 8416 0

原创 TensorFlow HOWTO 1.1 线性回归

1.1 线性回归 线性回归是你能用 TF 搭出来的最简单的模型。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as d...

2018-11-23 20:56:23 7988 0

原创 【番外】负采样原理

本来不想先写这篇的,有个任务要用到,就花了一天时间弄清楚,然后总觉得要写点什么,就写了。 NCE(噪声对比估计) 负采样可以看成 NCE 的特化,所以有必要先讲一下 NCE。 在 Softmax 回归中,样本属于某个分类的概率是: P(y=k∣x)=exp⁡(wkTx+bk)∑jexp(wjT...

2018-11-14 22:59:20 12757 2

转载 金程教育 AQF 量化金融分析师讲义 2017

注意: 2017 年的,不是最新的。 只有讲义,因为视频太大没办法传。 笔记本在讲义的附件里。 nb扩展名的文件不知道用什么打开,Jupyter Notebook 不行。 CSDN 下载:https://download.csdn.net/download/wizardforcel/10781...

2018-11-13 15:26:00 7699 1

翻译 数据科学和人工智能技术笔记 六、日期时间预处理

六、日期时间预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 把日期和时间拆成多个特征 # 加载库 import pandas as pd # 创建数据帧 df = pd.DataFrame() # 创建五个日期 df['date'...

2018-11-10 21:33:35 7988 0

提示
确定要删除当前文章?
取消 删除