데이터ㆍ분석 / 애플리케이션

AWS, ‘제로 ETL’ 전략 도와주는 신규 기능 2가지 발표

편집부 | ITWorld 2022.12.07
아마존웹서비스(Amazon Web Services, 이하 AWS)는 AWS 리인벤트(AWS re:Invent) 행사에서 고객이 서비스 간에 데이터를 이동하지 않고도 여러 데이터 저장소에서 데이터를 쉽게 연결하고 분석할 수 있는 두 가지 신규 기능을 발표했다. 

고객은 아마존 레드시프트(Amazon Redshift)를 사용해 거의 실시간으로 아마존 오로라(Amazon Aurora) 데이터를 분석할 수 있게 되어 서비스 간에 데이터를 추출, 변환, 로드(ETL)할 필요가 없다. 또한 고객은 이제 아마존 EMR, AWS 글루(AWS Glue), 아마존 세이지메이커(Amazon SageMaker) 등 AWS 분석 및 머신러닝(ML) 서비스를 사용해 아마존 레드시프트 데이터에서 아파치 스파크(Apache Spark) 애플리케이션을 쉽게 실행할 수 있다. 

AWS 데이터베이스, 분석, 머신러닝 부문 부사장인 스와미 시바수브라마니안은 “새로운 기능은 고객이 AWS에서 제로 ETL의 미래를 향해 나아갈 수 있도록 서비스 간에 수동으로 데이터를 이동하거나 변환할 필요성을 줄여준다”며, “고객을 위해 ETL과 기타 데이터 이동 작업을 제거함으로써, AWS는 고객이 조직과 데이터의 규모와 복잡성에 관계없이 데이터 분석과 비즈니스에 대한 새로운 인사이트를 도출하는 데 집중할 수 있도록 지원한다”고 말했다.

구매, 예약, 금융 거래 등 트랜잭션 데이터에 대한 거의 실시간의 인사이트를 도출하기 위해 필요한 사항은 조직이 핵심 비즈니스 동인을 더 잘 이해하면서 판매를 늘리고 비용을 절감하며 경쟁 우위를 확보하기 위한 전략을 개발함에 따라 증가한다. 많은 조직은 트랜잭션 데이터를 분석하기 위해 데이터를 저장하는 관계형 데이터베이스, 분석을 수행하는 데이터 웨어하우스, 관계형 데이터베이스와 데이터 웨어하우스 간의 ETL 데이터에 대한 데이터 파이프라인의 세 부분으로 구성된 솔루션에 의존한다. 

데이터 파이프라인은 구축 비용이 많이 들고 관리가 까다로울 수 있으므로, 개발자는 맞춤형 코드를 작성하고 수요에 맞게 확장할 수 있도록 인프라를 지속적으로 관리해야 한다. 일부 기업은 이 프로세스만을 위한 팀을 유지하기도 한다. 또한 데이터를 분석할 준비가 되기까지 며칠이 걸릴 수 있으며, 간헐적인 데이터 전송 오류로 인해 시간에 민감한 인사이트에 대한 액세스가 더욱 지연되어 비즈니스 기회를 놓칠 수 있다.

아마존 레드시프트와 아마존 오로라의 제로 ETL 통합을 통해, 트랜잭션 데이터는 아마존 오로라에 기록되고 아마존 레드시프트에서 원활하게 사용할 수 있게 된 후 몇 초 후에 자동으로 지속적으로 복제된다. 아마존 레드시프트에서 데이터를 사용할 수 있게 되면, 고객은 데이터 분석을 즉시 시작하고 데이터 공유나 아마존 레드시프트 ML과 같은 고급 기능을 적용하여 총체적이고 예측 가능한 인사이트를 얻을 수 있다. 

고객은 여러 아마존 오로라 데이터베이스 클러스터의 데이터를 동일한 아마존 레드시프트 인스턴스로 복제해 여러 애플리케이션에서 인사이트를 얻을 수 있다. 이제 고객은 복잡한 데이터 파이프라인을 구축하거나 유지 관리할 필요 없이 아마존 오로라를 사용하여 트랜잭션 데이터베이스 니즈를 지원하고 아마존 레드시프트를 사용하여 분석을 강화할 수 있다.

많은 개발자가 빅데이터 워크로드에 사용되는 오픈소스 프로세싱 프레임워크인 아파치 스파크를 사용해 광범위한 분석 및 ML 애플리케이션을 지원한다. 현재 AWS는 아마존 EMR, AWS 글루, 아마존 세이지메이커에서 아파치 스파크와 호환되고 오픈소스보다 3배 더 빠른 AWS 최적화 런타임을 지원한다. 고객은 종종 이러한 서비스에서 직접 아마존 레드시프트 데이터를 분석하기를 원한다. 이를 위해서는 고객의 환경과 아마존 레드시프트 간에 데이터를 읽고 쓰는 데 도움이 되는 서드파티 커넥터를 찾고 테스트하고 인증하는 복잡하고 시간 소모적인 프로세스를 거쳐야 한다. 

커넥터를 찾은 후에도 고객은 아마존 레드시프트에서 데이터를 읽고 쓰기 위해 아마존 S3와 같은 중간 데이터 스테이징 위치를 관리해야 한다. 이러한 모든 문제는 운영 복잡성을 증가시키고 고객이 아파치 스파크를 최대한 활용하기 어렵게 만든다.

아파치 스파크를 위한 아마존 레드시프트 통합으로 개발자는 AWS 지원 분석 및 ML 서비스를 사용해 아파치 스파크 애플리케이션을 아마존 레드시프트의 데이터에서 보다 쉽게 구축하고 실행할 수 있다. 아파치 스파크를 위한 아마존 레드시프트 통합은 AWS에서 인증, 패키징 및 지원되므로 서드파티 커넥터와 관련된 번거롭고 오류가 발생하기 쉬운 프로세스가 제외된다. 

개발자는 주요 언어 프레임워크(자바, 파이썬, R, 스칼라 등)를 사용해 몇 초 내에 아파치 스파크 기반 애플리케이션에서 아마존 레드시프트 데이터에 대한 쿼리 실행을 시작할 수 있다. 중간 데이터 스테이징 위치는 자동으로 관리되므로 고객이 애플리케이션 코드에서 이를 구성하고 관리할 필요가 없다. 
editor@itworld.co.kr
 Tags AWS
Sponsored
IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.