데이터센터 / 보안

대규모 MS 서비스 장애 분석해 보니⋯“급속한 BGP 라우터 업데이트가 원인”

Ann Bednarz | Network World 2023.02.02
지난 1월 25일 마이크로소프트 애저를 비롯해 여러 마이크로소프트 클라우드 서비스의 광범위한 장애를 유발한 원인은 경계 게이트웨이 프로토콜(BGP, Border Gateway Protocol) 라우터 프리픽스의 반복적이고 빠른 재광고가 일으킨 연쇄 효과라는 분석이 나왔다.
 
ⓒ Getty Image Bank

시스코의 자회사인 네트워크 인텔리전스 기업 사우전드아이즈(ThousandEyes)에 따르면, 마이크로소프트의 외부 BGP 변경이 서비스 제공업체에 영향을 미치면서 중단이 발생했다. 여러 마이크로소프트 BGP 프리픽스가 완전히 철회된 다음 곧바로 재광고됐다는 것이다.

BGP는 인터넷 트래픽에 어떤 경로를 선택할지 알려준다. 트래픽 포워딩에 사용할 최적의 경로를 결정하는 BGP 최선 경로 선택 알고리즘이 내장돼 있다. 그런데, 사우전드아이즈가 분석한 결과 중단 전의 BGP 경로 철회가 주로 직접 피어에 영향을 미친 것으로 보인다. 철회 기간 동안 직접 경로를 사용할 수 없게 되면 가용한 다음 최선 경로는 전송 사업자를 통하는 것이다. 직접 경로가 재광고되면 BGP 최선 경로 선택 알고리즘은 최단 경로를 선택하게 되고, 이는 원래 경로로의 회귀를 촉발한다. 

이러한 재광고가 여러 번 반복되면서 경로 테이블이 크게 불안정해졌고 이는 곧 장애로 나타났다. 사우전드아이즈의 수석 인터넷 분석가 케말 사니타는 사고 관련 웹캐스트에서 “빠른 속도의 변경이 글로벌 인터넷 라우팅 테이블에 큰 혼란을 일으켰고 그 결과 많은 라우터가 최선 경로 선택 알고리즘을 실행했다. 이는 전력 소비 측면에서 상당히 부담이 되는 상황이었다”라고 말했다. 

결과적으로 라우팅 변경이 상당한 패킷 손실로 이어져 사용자가 마이크로소프트 팀즈, 아웃룩, 셰어포인트 및 기타 애플리케이션에 접속할 수 없게 됐다. 사니타는 “마이크로소프트는 최선 경로를 설치하기 전에 여러 전송 사업자 사이를 빈번하게 전환했다. 고객 경험 측면에서는 절대 좋지 않은 선택이다"라고 말했다.

실제로 트래픽 경로의 빠른 변경 외에 전송 사업자 네트워크를 통한 대규모 트래픽 전환이 일어났고 서비스 제공업체가 이를 감당하지 못하면서 사우전드아이즈가 지적한 '높은 수준의' 패킷 손실이 발생했다. 

사니타는 “이 사고의 영향을 받은 셰어포인트, 팀즈와 같은 마이크로소프트 서비스를 사용하는 사람이 많다는 점을 고려하면 트래픽이 전환됐을 때 ISP는 상당한 트래픽을 받게됐을 것이다. ISP가 사용 중인 라우팅 기술, 예를 들어 소프트웨어 정의 네트워킹 또는 네트워크 제어 프로토콜 RSVP에 의해 실행되는 MPLS 트래픽 엔지니어링 등에 따라 다르지만 모든 솔루션이 이런 대량 트래픽 유입에 대응하려면 얼마간 시간이 필요하다. 대응 시간이 충분하지 않으면 특정 인터페이스의 과도한 이용이 발생하고 최종적으로는 장애로 이어진다. 이로 인한 막대한 패킷 손실은 결국 사용자에 돌아가고 경험의 질이 매우 떨어지게 된다”라고 말했다. 

한편 연결 중단의 원인에 대해 사우전드아이즈는 변화의 범위와 빠른 속도를 고려할 때 자동화 기술이 개입됐을 가능성이 높은 관리상의 변화가 마이크로소프트의 프리픽스에 대한 글로벌 경로의 불안정을 유발한 것으로 분석했다.

사니타는 “라우팅 테이블에서 관측된 빠른 변경 속도를 보면 일부는 마이크로소프트 측의 자동화된 작업에 의한 것으로 보인다. 기본적으로 특정 자동화가 개입하면서 트래픽 엔지니어링 관점에서 예상치 못한 무언가를 했고 그 과정이 여러 번 반복된 것으로 보인다”라고 말했다. 이번 장애로 전체적인 서비스 중단은 약 90분 동안 지속됐지만, 사우전드아이즈에 따르면, 다음 날에도 연결 문제가 일부 남아 있었다.
 

장애에 대한 마이크로소프트의 발표 내용  

한편 마이크로소프트 역시 내부 조사를 마친 뒤, 2주 이내에 더 자세한 내용이 포함된 최종 결과를 발표할 예정이다. 현재까지 마이크로소프트에 따르면 중단을 유발한 원인은 네트워크 구성 변경이다.

마이크로소프트는 UTC 오전 7시 31분에 마이크로소프트 365 상태 트위터 계정의 트윗을 통해 여러 마이크로소프트 365 서비스에 영향을 미치고 있는 문제를 조사 중이라며 처음으로 장애 상황을 확인했다. 약 90분 뒤에는 이 트위터 계정에 네트워킹 구성 문제임을 파악했으며 다른 영향 없이 문제를 해결하는 최선의 해결책을 찾는 중이라는 글이 올라왔다. 이어 UTC 9:26에는 “원인으로 판단된 네트워크 변경을 되돌렸다. 롤백이 적용되는 동안 서비스를 모니터링하고 있다”라는 내용이 이어졌다.

마이크로소프트가 애저 상태 페이지를 통해 게시한 예비 조사 결과는 다음과 같다.
 

"UTC 기준 2023년 1월 25일 07:05부터 12:43 사이 사용자가 네트워킹 연결 문제를 경험했다. 이에 따라 애저 지역에 호스팅되는 리소스, 그리고 마이크로소프트 365 및 파워 플랫폼과 같은 다른 마이크로소프트 서비스에 연결을 시도할 때 장시간의 네트워크 지연 또는 시간 만료가 발생했다. 대부분 지역과 서비스는 UTC 09:00까지 복구됐지만 간헐적인 패킷 손실은 UTC 12:43까지 이어진 후 완전히 해결됐다. 이 사고는 애저 퍼블릭 클라우드에 의존하고 있던 애저 거버먼트(Azure Government) 클라우드 서비스에도 영향을 미쳤다"


마이크로소프트는 마이크로소프트 WAN에 대한 변경이 장애로 이어진 것으로 파악하고 다음 내용을 추가로 밝혔다.
 

“WAN 라우터의 IP 주소를 업데이트하기 위한 계획된 변경 작업에 따라 라우터에서 실행된 명령이 WAN의 다른 모든 라우터에 대한 메시지 전송으로 이어졌고, 결과적으로 모든 라우터가 인접 및 포워딩 테이블을 다시 계산했다. 이 재계산 과정 동안 라우터는 해당 라우터를 통과하는 패킷을 제대로 포워딩하지 못했다. 문제를 유발한 명령은 다양한 네트워크 장비에서 다양하게 사용되며, 명령이 실행된 라우터에서 완전한 내부 검증 심사를 거치지 않은 상태였다”


editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.