2012.07.04

아마존 서비스 중단, 정전뿐 아니라 병목현상과 버그도 한몫

Brandon Butler | Network World
아마존 웹 서비스는 지난 주 금요일 밤 발생한 서비스 중단 사태에 대한 사후 보고서를 통해 정전과 소프트웨어 버그, 병목 재부팅이 “여러 고객에게 심각한 영향”을 미쳤다고 밝혔다.
 
태풍이 미국 중부를 휩쓰는 동안 제일 먼저 정전이 AWS의 EC2, EBS(Elastic Block Storage), RDS(Relational Database Service)에 영향을 미쳤으며, 이 장애가 ELB(Elastic Load Balancer) 같은 제어 서비스까지 확장됐다. 로드 밸런싱 서비스는 문제가 되는 지역의 트래픽을 이전하는 역할을 하도록 되어 있다.
 
아마존은 당시 여러 차례의 전기 공급 중단을 겪었지만, 대부분은 보조 발전기를 통해 해결할 수 있었다. 하지만 밤 8시 경에는 보조 발전기가 충분한 전력을 공급하지 못했고, 또 하나의 백업 전력인 UPS는 7분 만에 동이 나고 말았다. 이에 따라 8시 4분 경의 약 10분 동안 데이터센터에는 전력이 공급되지 못했고, 주요 서비스가 중단되는 사태를 맞이하고 말았다.
 
이에 따라 8시 4분부터 9시 10분까지 1시간이 넘는 시간 동안 아마존 고객들은 새로운 EC2 인스턴스나 EBS 볼륨을 생성할 수 없었다. 거의 대부분의 인스턴스는 11시 15분부터 자정 사이에 정상화됐지만, 복구 과정은 재기동 프로세스에 대한 요청이 폭주하면서 서버 기동 프로세스에 병목현상이 발생해 더욱 지체되고 말았다. 아마존은 이런 병목현상이 향후 정전에 대비해 개선 작업을 진행해야 할 부분이라고 밝혔다.
 
아마존은 자사의 서비스 지역을 여러 개의 가용 영역으로 나누고 잇는데, 이는 장애가 발생했을 때 해당 영역을 격리하기 위한 것이다. 이번 서비스 중단은 한 영역에서만 발생했지만, 아마존이 문제가 발생한 영역의 트래픽을 다른 가용 영역으로 분산하려 하면서 문제가 더 커지고 말았다. 아마존은 “전력과 시스템이 복구된 후, 다수의 로브 밸런서 서비스가 전에 보지 못한 버그를 처리하는 상태가 됐다”고 설명했다. 이 버그로 인해 EC2 재기동 요청과 함께 요청의 홍수가 발생한 것이다.
 
다른 한편으로는 아마존의 클라우드 기반 데이터베이스 서비스는 스토리지 서비스의 볼륨이 중단되고 또 다른 소프트웨어 버그가 발생하면서 어려움을 겪었다. 해당 영역의 데이터베이스 서비스 사용자는 스토리지 서비스가 복구되기를 기다려야만 했고, 여러 가용 영역에 걸쳐 데이터베이스를 보유한 고객에게는 문제가 없는 영역으로의 자동화된 장애 처리가 되지 않는 버그 문제를 겪었다. 아마존은 이 문제를 지난 4월부터 알고 있었으며, 현재 베타 상태인 이에 대한 해결책을 조만간 적용할 것이라고 밝혔다.
 
이번 서비스 중단의 피해를 입은 아마존 고객의 비율은 몇 %에 불과하지만, 아마존의 폭넓은 고객 기반 때문에 많은 수의 사용자에게 영향을 미쳤다. 넷플릭스, 인스타그램, 핀터레스트 등의 인기 서비스도 이번에 피해를 입었으며, 넷플릭스의 경우는 태평양 연안의 주 시청 시간대에 서비스가 중단되고 말았다. 
 
넷플릭스의 클라우드 아키텍트인 아드리안 콕크로프트는 사고 당시의 정황을 트위터를 통해 알렸는데, 넷플릭스는 사고에 대비한 구조를 만들고, 여러 가용 영역을 이용해 왔지만, 이번에는 보완책이 제대로 동작하지 않은 것으로 보인다. 콕크로프트는 트위터를 통해 “장애가 발생한 영역은 한 곳 뿐이었고, 우리는 데이터를 세 개 영역에 복제한다. 문제는 가용 영역 간의 트래픽 라우팅이 고장 난 것이었다”라고 밝혔다.
 
클라우드 서비스 업체인 센터빔(CenterBeam)의 CTO인 샤힌 피루즈는 이번 사고에 아마존의 책임이 상당 부분 있다고 지적했다. 피루즈는 “마치 아마존이 카드로 만든 집을 가지고 있었던 것 같다”며, 아마존에서 한 번에 이렇게 많은 시스템이 다운됐다는 것에 놀라움을 표했다. 
 
한편 트루즈는 이런 최악의 사태를 방지하기 위해서는 로드밸런서와 DNS, 그리고 아마존이 아닌 서드파티가 제공하는 재해 복구 서비스를 강화해야 한다고 강조했다. 이미 많은 업체들이 이런 서비스를 제공하고 있다. 트루즈는 또 최상의 상태는 여러 클라우드 업체에 걸쳐서 서비스를 연합해 내는 것이겠지만, 마이크그레이션 표준 등의 문제로 앞으로 5년 이후에나 기대해 볼 수 있을 것이라고 덧붙였다.  editor@itworld.co.kr


2012.07.04

아마존 서비스 중단, 정전뿐 아니라 병목현상과 버그도 한몫

Brandon Butler | Network World
아마존 웹 서비스는 지난 주 금요일 밤 발생한 서비스 중단 사태에 대한 사후 보고서를 통해 정전과 소프트웨어 버그, 병목 재부팅이 “여러 고객에게 심각한 영향”을 미쳤다고 밝혔다.
 
태풍이 미국 중부를 휩쓰는 동안 제일 먼저 정전이 AWS의 EC2, EBS(Elastic Block Storage), RDS(Relational Database Service)에 영향을 미쳤으며, 이 장애가 ELB(Elastic Load Balancer) 같은 제어 서비스까지 확장됐다. 로드 밸런싱 서비스는 문제가 되는 지역의 트래픽을 이전하는 역할을 하도록 되어 있다.
 
아마존은 당시 여러 차례의 전기 공급 중단을 겪었지만, 대부분은 보조 발전기를 통해 해결할 수 있었다. 하지만 밤 8시 경에는 보조 발전기가 충분한 전력을 공급하지 못했고, 또 하나의 백업 전력인 UPS는 7분 만에 동이 나고 말았다. 이에 따라 8시 4분 경의 약 10분 동안 데이터센터에는 전력이 공급되지 못했고, 주요 서비스가 중단되는 사태를 맞이하고 말았다.
 
이에 따라 8시 4분부터 9시 10분까지 1시간이 넘는 시간 동안 아마존 고객들은 새로운 EC2 인스턴스나 EBS 볼륨을 생성할 수 없었다. 거의 대부분의 인스턴스는 11시 15분부터 자정 사이에 정상화됐지만, 복구 과정은 재기동 프로세스에 대한 요청이 폭주하면서 서버 기동 프로세스에 병목현상이 발생해 더욱 지체되고 말았다. 아마존은 이런 병목현상이 향후 정전에 대비해 개선 작업을 진행해야 할 부분이라고 밝혔다.
 
아마존은 자사의 서비스 지역을 여러 개의 가용 영역으로 나누고 잇는데, 이는 장애가 발생했을 때 해당 영역을 격리하기 위한 것이다. 이번 서비스 중단은 한 영역에서만 발생했지만, 아마존이 문제가 발생한 영역의 트래픽을 다른 가용 영역으로 분산하려 하면서 문제가 더 커지고 말았다. 아마존은 “전력과 시스템이 복구된 후, 다수의 로브 밸런서 서비스가 전에 보지 못한 버그를 처리하는 상태가 됐다”고 설명했다. 이 버그로 인해 EC2 재기동 요청과 함께 요청의 홍수가 발생한 것이다.
 
다른 한편으로는 아마존의 클라우드 기반 데이터베이스 서비스는 스토리지 서비스의 볼륨이 중단되고 또 다른 소프트웨어 버그가 발생하면서 어려움을 겪었다. 해당 영역의 데이터베이스 서비스 사용자는 스토리지 서비스가 복구되기를 기다려야만 했고, 여러 가용 영역에 걸쳐 데이터베이스를 보유한 고객에게는 문제가 없는 영역으로의 자동화된 장애 처리가 되지 않는 버그 문제를 겪었다. 아마존은 이 문제를 지난 4월부터 알고 있었으며, 현재 베타 상태인 이에 대한 해결책을 조만간 적용할 것이라고 밝혔다.
 
이번 서비스 중단의 피해를 입은 아마존 고객의 비율은 몇 %에 불과하지만, 아마존의 폭넓은 고객 기반 때문에 많은 수의 사용자에게 영향을 미쳤다. 넷플릭스, 인스타그램, 핀터레스트 등의 인기 서비스도 이번에 피해를 입었으며, 넷플릭스의 경우는 태평양 연안의 주 시청 시간대에 서비스가 중단되고 말았다. 
 
넷플릭스의 클라우드 아키텍트인 아드리안 콕크로프트는 사고 당시의 정황을 트위터를 통해 알렸는데, 넷플릭스는 사고에 대비한 구조를 만들고, 여러 가용 영역을 이용해 왔지만, 이번에는 보완책이 제대로 동작하지 않은 것으로 보인다. 콕크로프트는 트위터를 통해 “장애가 발생한 영역은 한 곳 뿐이었고, 우리는 데이터를 세 개 영역에 복제한다. 문제는 가용 영역 간의 트래픽 라우팅이 고장 난 것이었다”라고 밝혔다.
 
클라우드 서비스 업체인 센터빔(CenterBeam)의 CTO인 샤힌 피루즈는 이번 사고에 아마존의 책임이 상당 부분 있다고 지적했다. 피루즈는 “마치 아마존이 카드로 만든 집을 가지고 있었던 것 같다”며, 아마존에서 한 번에 이렇게 많은 시스템이 다운됐다는 것에 놀라움을 표했다. 
 
한편 트루즈는 이런 최악의 사태를 방지하기 위해서는 로드밸런서와 DNS, 그리고 아마존이 아닌 서드파티가 제공하는 재해 복구 서비스를 강화해야 한다고 강조했다. 이미 많은 업체들이 이런 서비스를 제공하고 있다. 트루즈는 또 최상의 상태는 여러 클라우드 업체에 걸쳐서 서비스를 연합해 내는 것이겠지만, 마이크그레이션 표준 등의 문제로 앞으로 5년 이후에나 기대해 볼 수 있을 것이라고 덧붙였다.  editor@itworld.co.kr


X