IT 관리 / 클라우드

AWS, “장애의 원인은 파라미터 입력 실수” 원인과 재발 방지책 공개

Sharon Gaudin | Computerworld 2017.03.03
아마존 웹 서비스가 이번 주 초 여러 곳의 대형 웹 사이트와 앱에 영향을 미친 서비스 장애는 사람의 실수 때문에 발생한 것이라고 밝혔다. 지난 화요일 발생한 장애로 넷플릭스와 레딧, AP통신 등의 웹 사이트가 여러 시간 동안 정상적으로 운영되지 못했다.



AWS는 온라인 사과문을 통해 “아마존 S3의 기록적인 가용성에 자부심을 가지고 있고, 이 서비스가 우리의 고객과 고객의 애플리케이션, 사용자, 비즈니스에 얼마나 중요한지도 알고 있다”며, “이번 사고로부터 교훈을 얻기 위해 모든 것을 할 것이며, 나아가 이를 가용성을 높이는 데 사용할 것”이라고 강조했다.

지난 28일 AWS는 자사의 서비스 헬스 대시보드를 통해 미국 북부 버지니아 지역에 있는 데이터센터의 S3 서비스에 문제가 생겼다고 보고했다. 이 문제는 심지어 AWS 대시보드에도 영향을 미쳐 현지 시각 오후 5시까지 해결되지 않았다.

아마존에 따르면, 공인된 S3 엔지니어가 S3 결제 프로세스가 사용하는 S3 서브시스템 중 하나를 위해 몇 대의 서버를 삭제하는 명령어를 실행했다. 당시 결제 프로세스가 기대보다 느리게 동작하는 문제를 해결하기 위한 조치였다. 여기서 명령어의 파라미터 중 하나가 잘못 입력됐고, 이 때문에 핵심 S3 서브시스템 중 하나인 인덱스 서브시스템과 배치 서브시스템을 지원하는 다수의 서버가 정지되면서 문제가 발생했다.

예기치 않게 정지된 인덱스 서브시스템은 모든 S3 객체의 메타데이터와 위치 정보를 관리하며, 배치 서브시스템은 새로운 스토리지의 할당을 관리하고 인덱스 서브시스템이 정확하게 동작하도록 요청하는 역할을 한다. 이들 서브시스템은 당연히 장애를 견딜 수 있도록 구축되었지만, 다수의 서버가 정지되면서 서비스를 새로 시작해야만 했다.

ZK 리서치의 애널리스트 제우스 케라발라는 사람의 실수로 인해 이런 대형 사고가 발생한 것이 그리 놀라운 일은 아니라고 말했다. 케라발라는 “조사에 따르면 IT 서비스 중단의 37%가 사람의 실수에 의한 것”이라며, “이번 사고는 많은 기술 발전에도 불구하고 여전히 수작업에 많은 부분을 의지하고 있다는 것을 보여준다. 더 나은 자동화와 머신러닝을 적용해야 할 대표적인 예다”라고 설명했다.

AWS는 자사 엔지니어들이 이번 사고로 많은 것을 배웠으며, 향후 이런 사고가 재발하지 않도록 노력하고 있다고 밝혔다. 특히 “용량을 제거하는 것은 핵심 운영 사항이지만, 이번 경우 사용한 툴이 너무 많은 용량을 너무 빨리 제거할 수 있었다”라며, “이 툴이 용량을 좀 더 느리게 제거하도록 수정했으며, 세이프가드 기능을 추가해 서브시스템의 최소 필요 용량 밑으로 용량을 제거하는 것을 방지했다”고 설명했다.

무어 인사이트 앤 스트래티지의 대표 애널리스트 패트릭 무어헤드는 이번 사고로 AWS가 상당한 타격을 입을 것으로 보고 있다. 무어헤드는 “한 사람이 명령어 하나 잘못 입력한 것으로 수백만 명의 사용자가 피해를 보았다고 믿기 어렵다”라며, “사람들은 AWS에 더 많은 것을 기대했을 것이다. 이번 사고는 기업들이 특정 워크로드와 앱을 퍼블릭 클라우드로 이전하는 것을 다시 생각하게 할 것이며, 프라이빗 클라우드에 좀 더 관심을 두게 될 것”이라고 평가했다.

이런 관점에서 케라발라는 클라우드 시장의 최대 경쟁업체인 구글과 마이크로소프트가 이 사고를 이용해 기업 고객을 유치하려 할 것으로 전망했다.  editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.