클라우드

글로벌 칼럼 | 클라우드의 회복 탄력성을 높이는 데 필요한 비용은 얼마일까

Tim Greene | Network World 2022.08.10
클라우드 서비스 업체는 사용자에게 회복 탄력성을 높일 수 있는 기능을 별도로 제공한다. 비용만 투자하면 얼마든지 회복 탄력성을 높일 수 있는데, 사실 적절한 비용을 알기 쉽지 않다. 이런 와중에 컨설팅 업체 업타임 연구소(Uptime Institute)는 흥미로운 연구 결과를 공개했으며, 보호 기능이 없는 기본 서비스에 회복 탄력성을 높이려면 비용이 최대 111% 높아질 수 있다고 밝혔다.
 
ⓒ Getty Images Bank

업타임 연구소가 펴낸 ‘퍼블릭 클라우드 비용 vs. 회복 탄력성: 무상태 애플리케이션’ 보고서에 따르면, 기업이 비용을 추가하면 가동이 중단된 상황에서 인프라를 더 빨리 복구할 수 있으며, SLA에 명시된 계약 수준보다 더 나은 보상을 받을 수 있다. 서비스의 신뢰성이 어느 정도 개선될 수 있다는 의미다. 

업타임 연구소는 테스트를 위해 회복 탄력성을 높이는 세 가지 시나리오를 분석했다. 사용한 웹사이트는 간단한 워드프레스 기반 사이트로 요청량을 최대로 높이고 3초 이내 응답하는지 확인했다. 여기에 별도의 파이썬 시뮬레이션을 만들어 대역폭과 가상 머신 요구량에 변화를 주면서 비용에 미치는 영향을 살펴봤다. 

분석은 AWS를 기준으로 진행됐는데, 업타임 연구소는 “다른 퍼블릭 클라우드 서비스에도 비슷한 가격 책정 모델, 서비스, 아키텍처 원칙이 있기 때문에 이번 보고서의 기본 분석 결과는 다른 클라우드 서비스 업체에도 적용될 수 있다”라고 소개했다. 

보고서는 워드프레스 앱의 회복 탄력성 여부를 ▲앱을 호스팅한 VM을 동일한 가용 영역에 백업 ▲VM을 동일한 리전의 다른 가용 영역에 백업 ▲서로 다른 리전에 백업하는 방식으로 나눠 분석했다. 

클라우드 서비스의 가용 영역(availability zone)은 가상 데이터 센터를 말하는데, 가용 영역이 동일한 지리적 위치에 모여 있으면 리전(region)이 된다. 보고서는 “VM 같은 단일 리소스는 때때로 아무런 반응을 보이지 않는 상태가 될 가능성이 있다. 또한 가용 영역 전부가 가동이 중단되면 많은 리소스가 반응이 없는 상태에 빠질 수도 있다. 리전 전체가 가동 중단되는 상황은 잘 발생하지 않지만, 일단 그런 상황이 발생하면 여러 개의 가용 영역이 가동 중단되는 결과로 이어진다”라고 설명했다. 

보고서에서 핵심적으로 분석한 보호 기능 없는 기본 서비스 비용은 VM 사용 비용에 아웃바운드 대역폭 비용을 더해 책정됐으며, 총 월 217.38달러였다. 만일 VM에 장애가 발생했을 때 앱을 백업해주는 지원이 없다면, 복구 시간은 결국 고객이 얼마나 빨리 장애 앱을 교체하느냐에 따라 달라진다. 업타임 연구소는 “AWS의 데이터 컨트롤 플레인은 가용성 99.95%를 실현하도록 설계되었다고 설명하는데, 보상은 가용성이 99.5% 밑으로 떨어질 때만 진행된다”라고 설명했다. 업타임 연구소의 테스트 결과, AWS에서 1.5일 이상 가동 중단이 발생할 경우, 보상 금액은 월 애플리케이션 비용의 29%로 추정됐다.
 

같은 가용 영역에 백업

로드 밸런서를 사용하고 VM을 별도의 활성 VM로 동일한 가용 영역에 백업하면, VM에 장애가 발생해도 다운타임이 0이며 그 결과 암묵적 가용성도 똑같이 99.95%이다. 1.5일 이상 지속되는 가동 중단에 대한 보상 금액은 월 비용의 44%로 늘어난다. 이런 아키텍처에는 추가 VM과 로드 밸런서가 필요하므로 비용도 더 든다. 즉 기본 요금 대비 43% 높은 311달러가 필요하다.
 

같은 리전 내 2개 가용 영역에 백업

VM을 별도의 활성 VM로 동일 리전 내 다른 가용 영역에 백업할 경우, 매월 311달러의 비용이 든다. 제2의 VM을 다른 리전에 둔다고 추가 비용이 들지는 않지만, 암묵적 가용성은 99.99%로 향상된다. 복구 시간은 0이고 보상률도 44%로 앞서 언급한 시나리오와 동일하다.
 

다른 리전에 백업

보고서에 따르면 앱을 서로 다른 두 리전에 설치하고, 활성 인스턴스 2개를 각 리전에 서로 다른 가용 영역에 호스팅하는 것이 가장 회복 탄력성을 높이는 방법이었다. 

업타임 연구소는 앱을 호스팅하는 활성 가상 머신을 각 리전마다 2대씩 총 4대를 둔 결과, 각 리전에 있는 가상 로드 밸런서가 서로 다른 가용 영역에 위치한 VM 사이의 트래픽을 조절했다. 보고서에 따르면 “로드 밸런서는 VM 또는 가용 구역 내 가동 중단이 발생할 경우 회복 탄력성과 간단한 밸런싱을 제공한다. 외부적으로 장애는 최종 사용자의 눈에 띄지 않거나 최종 사용자의 기기로 관리해야 했다”라고 설명했다.  

이런 가상 로드 밸런서로 가는 트래픽은 도메인 네임 시스템(DNS)이 보낸다. DNS는 물리적 근접성, 로드 밸런서로 가는 경로의 지연, 가중치 설정 정책 등을 기준으로 더 나은 로드 밸런서를 선택하도록 구성할 수 있다. DNS는 상태를 점검해 로드 밸런서를 이용할 수 없게 되면 이를 탐지하고 트래픽을 다른 로드 밸런서로 보낼 수도 있다.

가장 회복 탄력성이 높은 이런 방식에도 단점이 있다. 보고서에는 “DNS를 활용하는 방식은 웹 애플리케이션에 접근하는 사용자 장치에 애플리케이션 IP 주소를 저장한 레코드가 생겨 문제가 될 수 있다. 이 주소를 사용할 수 없게 되면 애플리케이션이 DNS 시스템에서 온 IP 주소로 로컬 캐시를 업데이트하기 전까지는 사용자 장치는 애플리케이션에 접근할 수 없다”라고 설명했다. 따라서, 최종 사용자는 장애 발생 시 기약 없이 서비스 이용할 수 없을 수 있다. 

마지막 시나리오에서는 암묵적 가용성이 99.9999%로 상승하고 비용은 기본 요금 대비 111% 상승해 457.80달러에 이른다. 보고서에 따르면, 리전 중 한 곳이 가동 중단되면 로드 밸런서와 2대의 VM을 이용할 수 없으므로, 가동 중단이 1.5일 이상 지속될 경우 고객은 서비스 비용의 62%에 해당하는 금액을 보상받을 수 있다.

업타임 연구소는 클라우드 서비스 업체는 “가용 영역에서는 기본적으로 회복 탄력성을 높일 수 있는 기능을 많이 제공하며, 적은 비용을 추가한 것 치고는 꽤 높은 가용성을 확보할 수 있다”라고 밝혔다. 또한 “회복 탄력성이 더 높은 구조에서는 가용성이나 가동 중단 보상을 의미 있는 수준으로 보장하지 않을 수 있다는 점을 주의해서 알고 있어야 한다”라고 설명했다.
editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.