Apache Hadoop, Apache Spark

빅데이터를 다루거나 분석을 하게 되면 많이 들어본 단어인 아파치 하둡과 아파치 스파크에 대해서 알아볼것이다.

이름에서도 알수있듯이 라이센스는 아파치 기반이다.

라이센스에 대한 정보는 아래 참고 포스팅에서 확인을 해볼수 있다.

먼저 하둡에 대해서 알아보도록 할것이다.

Hadoop

하둡은 대용량 데이터를 분산 처리 할수 있는 자바 기반의 오픈소스 프레임워크다.

분산처리 저장기술이 뛰어나고 오픈소스로 변하면서 사람들에게 많은 사랑을 받게 되었다.

그럼 여기서 말하는 분산이란,

데이터를 하나의 하드디스크가 아닌 여러개의 하드디스크에 저장을 하고 순서대로 한번씩 읽으면서 데이터를 가져오는것이다.

하나의 디스크에서 데이터를 가져오게 된다면 직렬로 데이터를 갖고 오게 되어 오래 걸리는데 여러 디스크에서 조금씩 데이터를 가져오면 병렬로 가져와서 금방 동시에 가져올수 있다고 생각하면 쉽다.

데이터를 저장하기 위해서 기존에는 다양한 RDBMS를 사용하였는데 이 RDB 는 관리하기에 많은 비용이 들지만 하둡은 오픈소스라서 비용이 들지 않는다. 거기에 빅데이터를 다룬다면 더욱 하둡의 중요성이 부각된다.

하지만 RDMBS는 데이터베이스 관리 시스템에서 다양한 장점을 제공하여 무조건 하둡이 좋다는것은 아니지만 필요에 맞게 잘 알고 사용하는것이 중요하다.

Spark

스파크는 하둡과 비슷하게 생각이 들수도 있지만 차이는 빅데이터 워크로드에서 주로 사용되는 분산 방식이고 오픈소스이다.

빠르게 성능을 위해서 메모리 캐싱과 최적화 실행을 사용하며, 배치처리(단위), 스트리밍분석, 그래프데이터베이스, 임시쿼리 등을 지원한다.

기존 하둡에서 실시간 처리가 힘든 부분을 보안하기 위해 만들어진 친구이다.

둘의 차이를 알고 자신이 사용하고 있는 데이터의 단위와 크기를 잘 살펴서 시스템 구성을 잘 짜는것도 하나의 역량이 되버린 것 같다.

예전까지만 해도 돈이 많으면 많은 하드와 메모리, 좋은 cpu/gpu를 사용하여 속도를 제어했지만 이제는 그것 보다는 이런 기술을 잘 활용하는게 더욱 중요해진듯 싶다.

오픈 라이센스 정리( GPL, LGPL, BSD, MIT, APACHE)

thenicesj.tistory.com

성실하게 준비한 하루 이야기