* AirFlow 등장 배경
: 기존에 Cron으로 돌리던 스케줄링된 프로그램들
- 시간 기반 자동화 : 매일/매주/매월 특정 시간에 작업 실행
* 데이터 파이프라인이 많아짐에 따라 Cron만으로는 모든 작업을 관리하는 것이 어려워짐
* 이 모든 파이프라인을 스케줄링, 모니터링, 실행을 자동화해주는 프레임워크 등장 : AirFlow
* DAG 라는 스케줄링 파일을 기반으로 동작
* XCom이라는 내부 캐시저장소가 있어서 다른 Task에서 데이터를 공유할 수 있음
- BashOperator와 PythonOperator가 존재함 (초기 실행시간이 PythonOperator가 조금더 느리다...?)
AirFlow Components
- Scheduler : 순서관리
- Worker: 작업 실행
- Operator: 연산 수행
- metasotre: DAG 파일관리, 오류 관리
- 실행일시 지정은 cron 표기법 사용
'Data Engineer' 카테고리의 다른 글
| 리눅스 명령어 (0) | 2025.01.31 |
|---|