본문 바로가기
IT/AWS

aws cloud컴퓨팅 part.8

by 성준하이 2022. 4. 17.
반응형

이번 포스팅에서는 AWS 분석에 대해서 다뤄볼 것이다.

 

AWS기반 데이터 레이크 및 분석
  • 데이터레이크 및 분석 솔루션 구축을 위한 가장 포괄적이고 안전하고 확장 가능하며 비용 효율적인 서비스 포트폴리오
  • AWS는 분석을 위해 데이터레이크를 빠르고 쉽게 구축하고 관리하는데 필요한 모든 것을 제공하는 통합 서비스 제품군을 제공함
  • AWS기반의 데이터레이크는 기존의 데이터 사일로 및 데이터 웨어하우스가 수행할 수 없는 방식으로 다양한 유형의 데이터와 분석 기법을 결합하여 보다 심층적인 통찰력을 얻기 위해 필요한 규모, 민첩성 및 유연성을 처리할 수 있음
  • AWS는 보안 또는 거버넌스를 저하하지 않으면서 모든 관련 데이터에 쉽게 액세스할 수 있는 가장 광범위한 분석 및 기계 학습 서비스를 고객에게 제공함
  • AWS는 데이터레이크와 분석을 갖춘 조직을 그 어디보다 많이 보유하고 있음
  • NASDAQ, Zillow, Yelp, iRobot 및 FINRA와 같은 고객은 AWS가 그들의 비지니스 크리티컬 분석 워크로드를 실행할 수 있다고 믿고 맡김

데이터레이크의 기본 툴은 다음 그림과 같으며 온프레미스와 실시간 접근 가능한 데이터 레이크이며 분석과 머신러닝 역시 동작이 가능하다.

그럼 여기서 데이터 레이크란

  • 데이터가 클라우드에 대한 준비가 되면 AWS에서 S3(객체 스토리지) 및 Glacier(백업 및 아카이브) 를 사용하여 데이터를 모든 형식으로 안전하게 그리고 방대한 규모로 쉽게 저장할수 있음
  • 최종 사용자가 분석에 사용할 관련 데이터를 쉽게 찾을수 있도록 AWS Glue(데이터 카탈로그)는 사용자가 검색하고 쿼리할 수 있는 단일 카탈로그를 자동 생성함

분석에 대한 기능은 몇가지가 있으니 살펴보도록 하자.

 

Amazon Athena

Amazon에서 대화식 분석을 하는 기능이며 SQL을 사용하여 S3의 데이터에 쿼리를 날려준다.

서버리스이므로, 설정하거나 관리할 인프라가 없으며 실행한 쿼리에 대한 비용을 지불한다.

 

Amazon EMR

호스팅된 하둡 프레임워크이며, 빅데이터 처리, 운영 분석, 실시간 분석 등 다양한 분석 기능을 제공한다.

 

Amazon Managed Streaming for Apache Kafka

안전한 완전관리형 고가용성 서비스이다.

데이터 스토어에 스트리밍 데이터를 생성하는 앱을 데이터 스토어에서 스트리밍 데이터를 소비하는 앱에서 분리하는 스트리밍 데이터 스토어이다. 스트리밍 데이터를 지속적으로 분석하여 관련 대응을 조치하기 위해서 많이 사용한다.

 

Amazon Redshift

빠르고 간단하며 비용 효율적인 데이터 웨어하우징이다.

대용량의 정형 데이터에 대해 복잡한 분석 쿼리를 실행할수 있는 기능을 제공하며 불필요한 데이터 이동 없이 S3의 정형 또는 비정형 데이터에 대해 직접 SQL 쿼리를 실행하는 Redshift Spectrum을 포함한다.

 

Amazon QuickSight

빠른 비지니스 분석 서비스이고 대시보드를 시각화 하여 빠르고 강력한 클라우드 기반 비지니스 분석 서비스를 제공한다.

모든 브라우저 또는 모바일 장치에서 액세스할 수 있는 멋진 시각화 및 풍부한 대시보드를 간편하게 작성할 수 있다.

 

AWS data Pipeline

데이터 중심의 주기적인 워크플로를 위한 오케스트레이션 서비스이다.

  • 온프레미스 데이터 소스 뿐 아니라 여러 AWS 컴퓨팅 및 스토리지 서비스 간에 데이터를 안정적으로 처리하고 지정된 간격으로 이동할 수 있게 해주는 웹서비스
  • 저장되어있는 데이터에 정기적으로 액세스 하고 대규모로 데이터를 변환 및 처리하며, Amazon S3, Amazon RDS, Amazon DynamoDB 및 Amazon EMR과 같은 AWS 서비스에 그 결화를 효율적으로 전송 가능
  • 내결함성이 있고, 반복 가능하며, 가용성이 높고, 복잡한 데이터 처리 워크로드를 손쉽게 생성 가능
  • 리소스 가용성 보장, 작업 간 종속성 관리, 일시적 실패 및 시간 초과로 인한 개별 작업 재시도, 실패 알림 생성 시스템 등에 대해 걱정없음

 

AWS Lake Formatior
  • 안전한 데이터 레이크를 며칠만에 손쉽게 설정할 수 있도록 지원하는 서비스
  • 데이터레이크는 큐레이션된 안전한 중앙 집중식 리파지토리로, 모든 데이터를 원래 형식 및 분석에 필요한 형식으로 저장함
  • 데이터 레이크를 사용하면 데이터 사일로를 없애고 다양한 유형의 분석을 조합하여 통찰력을 얻을수 있으며, 이를 바탕으로 더 나은 비지니스 결정을 내릴수 있음
  • 데이터레이크를 설정하고 관리하기 위해서는 수많은 복잡하고 시간 소모적인 수작업이 필요함
반응형

'IT > AWS' 카테고리의 다른 글

aws cloud컴퓨팅 part.10  (20) 2022.04.19
aws cloud컴퓨팅 part.9  (52) 2022.04.18
aws cloud컴퓨팅 part.7  (36) 2022.04.16
aws cloud컴퓨팅 part.6  (46) 2022.04.15
aws cloud컴퓨팅 part.5  (55) 2022.04.14

댓글