콘텐츠로 이동

Airflow Tutorial

Apache Airflow는 데이터 파이프라인을 코드(Python)로 작성하고 스케줄링·모니터링할 수 있는 대표적인 워크플로우 오케스트레이션 도구입니다.

이 튜토리얼은 Airflow 3.x를 기준으로, 기본 개념부터 Operator의 내부 동작과 Custom Operator 제작까지 단계별로 정리합니다.

목차

순서 주제 설명
1 Airflow란? 개념, 아키텍처, Airflow 3의 변화
2 DAG 작성 기초 DAG/Task, schedule, 의존성, XCom, Assets
3 Operator 완전정복 개념, 종류, 대표 Operator 상세, TaskFlow API
4 Custom Operator 만들기 plugins 구조, BaseOperator 상속, 실전 예제
5 Hook & Connection Hook의 역할, Connection 관리, Custom Hook

사전 준비

  • Python 기본 문법 (클래스, 데코레이터, 타입 힌트)
  • 터미널(CLI) 사용 경험
  • Docker / Docker Compose (로컬 실습용)
  • (선택) Kubernetes 기초 — K8s Executor 파트 이해에 도움

Airflow 버전 안내

이 튜토리얼은 Airflow 3.0+을 기준으로 작성되었습니다. Airflow 2.x와 차이가 큰 부분(Task SDK, Asset, DAG Versioning, execution_datelogical_date 등)은 본문에서 별도로 표시합니다.

학습 순서 안내

Operator 개념(챕터 3)과 Custom Operator(챕터 4)가 이 튜토리얼의 핵심입니다. Airflow를 처음 접한다면 1~2장을 꼼꼼히 읽고, 이미 2.x 경험이 있다면 1장의 "Airflow 3에서 달라진 점"만 훑어본 뒤 3장부터 시작해도 좋습니다.

댓글