하둡 생태계는 방대한 데이터를 좀 더 쉽고 효과적으로 저장할 수 있기 때문에 데이터 레이크의 표준 생태계로 자리잡고 있다. 하지만 데이터를 둘러싼 환경은 빠르게 변화하고 있다. 특히 ‘데이터 폭풍’이라고 불리는 현재의 데이터 환경은 성능과 용량, 가용성, 확장성, 활용 방안 등 모든 면에서 기존 데이터 레이크의 한계를 드러내고 있다.
아파치 아이스버그가 차세대 데이터 레이크가 해법으로 주목 받는 이유는 기존 생태계와의 호환성을 유지하면서 데이터 웨어하우스의 정합성, 퍼블릭 클라우드 환경을 위한 최적화 등 기존 하둡 기반 데이터 레이크의 단점을 보완할 수 있기 때문이다. 아파치 아이스버그가 부리는 테이블과 스냅샷의 마법에 대해 알아본다.
주요 내용
- 클라우드와 데이터 폭풍 시대 데이터 레이크의 조건
- 장점은 살리고 단점은 보완하는 해법 “아파치 아이스버그”
- “데이터 정합성부터 시간여행까지” 스냅샷의 마법
- 진화하는 파티션과 극강의 호환성
- 아이스버그의 가치를 극대화하는 클라우데라 데이터 플랫폼