클라우드

“MS 이어 오라클 OCI도 대규모 장애” 클라우드 기반 업무 시스템 '불안불안'

Moumita Deb Choudhury | Network World 2023.02.21
최근 OCI(Oracle Cloud Infrastructure) 장애가 발생해 전 세계 사용자에게 영향을 끼쳤다. 최근의 또다른 마이크로소프트 클라우드 서비스 중단에 이어 발생해 클라우드 기반 미션 크리티컬 애플리케이션에 비즈니스를 의존하는 시스템 관리자에게 다시 한번 엔지니어링의 중요성을 상기시켰다.
 
ⓒ Getty Image Bank

역대 최대 규모로 꼽히는 이번 OCI 장애는 13일 17:30에 시작돼 15일 22:30 GMT까지 이어졌으며 북미와 남미, 호주, 아시아 태평양, 중동, 유럽 및 아프리카 전역의 고객에게 영향을 미쳤다.

업체는 클라우드 인프라 웹사이트를 통해 “오라클 엔지니어는 OCI 퍼블릭 DNS API를 지원하는 백엔드 인프라에서 성능 문제를 확인했으며, 이로 인해 일부 수신 서비스 요청이 영향 기간 동안 예상대로 처리되지 못했다”라고 설명했다. 이어진 추가 글에서 업체는 "현재 요청을 처리하기 위해 실시간으로 백엔드를 최적화하고 DNS 부하 관리를 섬세하게 조정해 적응형 완화 접근 방식을 구현했다”라고 밝혔다.
 

오라클 장애의 파급 효과

오라클에 따르면, 이번 운영 중단으로 여러 기업에 다양한 문제가 발생했다. 예를 들어 OCI 볼트(OCI Vault), API 게이트웨이(API Gateway), 오라클 디지털 어시스턴트(Oracle Digital Assistant) 및 OCI 서치(OCI Search)를 사용하는 기업 일부는 서버 문제와 관련된 5xx 유형의 오류를 경험했다. ID 사용 기업은 새 도메인을 만들고 수정할 때 문제가 발생했을 수 있다. 

또한 오라클 매니지먼트 클라우드(Oracle Management Cloud) 사용 기업 일부는 새 인스턴스를 생성하거나 기존 인스턴스를 삭제하는 데 실패했다. 오라클 애널리틱스 클라우드(Oracle Analytics Cloud), 오라클 인테그레이션 클라우드(Oracle Integration Cloud), 오라클 비주얼 빌더 스튜디오(Oracle Visual Builder Studio) 및 오라클 콘텐츠 매니지먼트(Oracle Content Management) 사용 기업 일부도 새 인스턴스를 생성할 때 오류가 발생했했다.

관련이 없어 보이는 사건이지만, 오라클의 넷스위트(NetSuite) ERP 제품군은 14일 보스턴에 있는 데이터센터에서 중단돼 다음 날 오전 11시 46분경 서비스가 복구될 때까지 다운됐다. 오라클은 보스턴 데이터센터가 중단된 이유를 자세히 설명하지 않았지만 레지스터는 트윗에서 “오라클 넷스위트(Oracle NetSuite)가 사용하는 데이터센터 부지에서 전력실의 전기 장비에 연기가 나는 것이 확인됐다. 소방관들이 현장의 전원을 끄고 대피했다"라고 설명했다.
 

데이터 복구에 실패하기도

이 서비스를 사용하는 기업 일부는 레딧(Reddit)을 통해, 서비스 중단 시점부터 30분 전까지의 데이터를 복구할 수 없었다고 적었다. 실제로 한 사용자는 넷스위트에서 보낸 것으로 알려진 문서를 근거로 ‘복원 지점은 중단되기 약 30분 전’임을 확인했다.

넷스위트는 이런 장애의 경우 사용 기업이 데이터를 검색할 수 없는 기간 동안 생성된 트랜잭션 목록을 기업에 제공한다. 이 사용자는 “이를 기반으로, 누락된 데이터를 수동으로 처리한 다음 선택적으로 데이터를 (현재 보스턴이 아닌 산타클라라에서 호스팅 되는) ‘새로운’ 넷스위트 인스턴스로 가져오는 것 같다”라고 말했다. 이와는 별도로, 13일에 오라클 US 에쉬번 2(Oracle US Ashburn 2) 데이터센터가 약 1시간 동안 중단되기도 했다.

오라클은 지난 12개월 동안 넷스위트의 가용성이 99.96%였다고 주장했으며, 이번 주에 발생한 중단은 오라클의 CEO인 레리 엘리슨이 12월 회사의 2분기 실적 발표에서 그 달의 큰 중단을 겪었던 아마존 웹 서비스를 간접적으로 비꼰지 불과 몇 개월 후에 발생했다. 엘리슨은 대형 통신 회사로부터 오라클은 ‘아직 다운되지 않을 것’이기 때문에 다른 클라우드와는 다르다고 말했다고 CNBC가 보도했다. 

지난 몇 달 동안 다른 주요 클라우드가 장애를 일으켰다. 예를 들어 2월 7일에 마이크로소프트 아웃룩(Outlook)과 팀즈(Teams)가 전 세계적으로 중단됐다. 이는 아웃룩과 팀즈뿐 아니라 익스체인지 온라인(Exchange Online), 쉐어포인트 온라인(SharePoint Online) 및 비지니스 원드라이브(OneDrive for Business)와 같은 서비스에 영향을 미친 장애 사건 이후 불과 2주만의 일이다. 이는 전 세계 사용자에게 영향을 주었다. 클라우드 대기업들은 거의 모든 지역에 복수의 데이터센터와 서버를 갖추고 있지만 많은 서비스 중단으로 인해 데이터가 손실되는 경우는 드문 일이 아니다. 
 

핵심 업무용 인프라 관리의 중요성

시장조사업체 포레스터의 애널리스트 샘 히긴스는 “클라우드 기반 솔루션은 온프레미스 솔루션과 마찬가지로 진정한 고가용성과 연속성을 위해 설계돼야 한다. 클라우드를 기반으로 세계 여러 곳에 설비를 운영하고 있다고 해서 애플리케이션 가동 시간이 100% 보장되는 것은 아니다. 특히 오랜 온프레미스 역사와 전통을 가진 애플리케이션의 경우 더 그렇다. 클라우드 업체가 데이터센터 네트워크에서 구현할 수 있는 데이터 복제와 백업에 한계가 있는 것도 한 요인이 될 수 있다"라고 말했다.

이어 “전 세계적으로 네트워크가 점점 더 복잡해지며, 인적 오류 등 여러 요인이 발생할 수 있는 위험까지 더해지면 실제 데이터 손실로 이어지는 운영 중단 등 최악의 상황이 발생할 수 있다. 사이트 신뢰성 엔지니어링을 신경 써야 하는 것도 이 때문이다"라고 덧붙였다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.