반응형 spark1 Apache Hadoop, Apache Spark 빅데이터를 다루거나 분석을 하게 되면 많이 들어본 단어인 아파치 하둡과 아파치 스파크에 대해서 알아볼것이다. 이름에서도 알수있듯이 라이센스는 아파치 기반이다. 라이센스에 대한 정보는 아래 참고 포스팅에서 확인을 해볼수 있다. 먼저 하둡에 대해서 알아보도록 할것이다. Hadoop 하둡은 대용량 데이터를 분산 처리 할수 있는 자바 기반의 오픈소스 프레임워크다. 분산처리 저장기술이 뛰어나고 오픈소스로 변하면서 사람들에게 많은 사랑을 받게 되었다. 그럼 여기서 말하는 분산이란, 데이터를 하나의 하드디스크가 아닌 여러개의 하드디스크에 저장을 하고 순서대로 한번씩 읽으면서 데이터를 가져오는것이다. 하나의 디스크에서 데이터를 가져오게 된다면 직렬로 데이터를 갖고 오게 되어 오래 걸리는데 여러 디스크에서 조금씩 데이터.. 2022. 3. 7. 이전 1 다음 반응형