Data Engineer
AirFlow
* AirFlow 등장 배경: 기존에 Cron으로 돌리던 스케줄링된 프로그램들 - 시간 기반 자동화 : 매일/매주/매월 특정 시간에 작업 실행 * 데이터 파이프라인이 많아짐에 따라 Cron만으로는 모든 작업을 관리하는 것이 어려워짐* 이 모든 파이프라인을 스케줄링, 모니터링, 실행을 자동화해주는 프레임워크 등장 : AirFlow* DAG 라는 스케줄링 파일을 기반으로 동작* XCom이라는 내부 캐시저장소가 있어서 다른 Task에서 데이터를 공유할 수 있음 - BashOperator와 PythonOperator가 존재함 (초기 실행시간이 PythonOperator가 조금더 느리다...?) AirFlow Components- Scheduler : 순서관리- Worker: 작업 실행- Operator..
리눅스 명령어
# 해당링크에서 파일 다운wget 링크# 압축 풀기tar xvf 파일명# 모든 항목보기 ls -all# 디렉토리 강제 삭제 rm -rfrecursive : 하위 항목 모두 삭제force: 삭제 여부를 묻지 않고 삭제