◼️Spark

    [Spark] 개념

    * MapResulce 한계를 극복한다.* MapReduce는 디스크에 저장되어서 지연시간을 증가시킨다.* Spark는 in-memory 방식을 사용해서 중간 연산 결과를 디스크에 저장하지 않기 때문에 중간 연산에서 디스크 I/O 가 발생하지 않는다. * in-memory가 디스크보다 10,000 배 빠르다.* in-memory의 단점은 휘발성이다. 컴퓨터가 꺼지면 날아간다는 것     - 그래서 이를 보완하기 위해서 나온 개념이 RDD이다.     - RDD: 심플하게 생각하면 배열이다.