마이크로소프트는 사건 보고서를 통해 "사고를 촉발한 것은 DDoS 공격이었고 DDoS 보호 메커니즘이 활성화됐지만, 초기 조사에 따르면 방어 구현 오류로 인해 공격의 영향이 완화되기보다는 증폭된 것으로 보인다”라고 밝혔다.
최근 대형 IT 업체의 내부 실수로 인한 서비스 중단 사태가 잇달아 발생하고 있다. 7월 19일에 발생한 크라우드스트라이크 사고와 이번 주 초 디지서트(DigiCert)가 잘못 발급된 SSL 인증서를 급하게 취소한 사건에도 배포 전에 시스템을 제대로 테스트하지 않은 것이 원인의 하나로 작용했다.
수백만 달러의 수리 비용과 비즈니스 기회 손실이 발생한 크라우드스트라이크 사고는 테스트에서 발견하지 못한 보안 센서 소프트웨어의 결함으로 발생했으며, 디지서트 사고는 소프트웨어 시스템을 현대화하는 과정에서 생긴 일부 프로세스 오류를 테스트에서 발견하지 못한 것이 원인으로 지목됐다.
마이크로소프트 365 서비스 중단 사고는 예기치 않은 사용량 급증으로 인해 애저 프론트 도어(Azure Front Door) 및 애저 CDN이 허용 임계값 이하로 수행되어 간헐적인 오류, 시간 초과 및 지연 시간 급증을 초래했다.
성능 저하는 애저 포털 자체뿐만 아니라 애저 앱 서비스, 애플리케이션 인사이트, 애저 IoT 센트럴, 애저 로그 검색 알림, 애저 정책 등 일부 마이크로소프트 365 서비스 및 기타 서비스에 영향을 미쳤다. 마이크로소프트 365 관리 센터 자체, 인튠, 엔트라 및 파워 플랫폼도 영향을 받았다.
마이크로소프트는 서비스 중단에 대응해 즉각 조사를 시작했으며, 네트워크 급증의 배후에 DDoS 공격이 있음을 파악한 후 네트워킹 구성을 변경하고 대체 네트워킹 경로에 대한 장애 조치를 수행해 문제를 해결했다고 밝혔다.
그러나 이런 대응에도 불구하고 몇몇 기업은 서비스 가용성에 대해 불만을 제기했고, 마이크로소프트는 아태 지역과 유럽을 시작으로 다른 접근 방식을 사용해 문제를 해결했다고 밝혔다. 보고서는 다른 접근 방식에 대한 자세한 내용은 공개하지 않았다.
마이크로소프트는 전체 사고를 더 자세히 파악하기 위해 조사를 완료할 것이며, 14일 이내에 세부 정보를 공개할 계획이라고 밝혔다. 마이크로소프트의 서비스 상태 페이지에 따르면, 이번 사고는 올해 들어 8번째 서비스 상태 관련 사고이다.
editor@itworld.co.kr