2021.04.26

“데이터센터 장애의 원인이 바뀐다” 정전보다는 환경 구성 : 업타임 보고서

Andy Patrizio | Network World
업타임 인스티튜트의 새로운 조사에 따르면, 데이터센터 운영업체에 전력은 점점 큰 문제가 아니다. 하지만 네트워킹과 소프트웨어가 더 큰 문제가 되고 있다.
 
ⓒ Elijah O'Donnell / Unsplash / Modified by IDG Comm. (CC0)

업타임의 세 번째 연례 서비스 중단 분석(Annual Outage Analysis) 보고서는 기술과 가용성의 개선에도 불구하고 서비스 중단은 여전히 관련 업계와 고객, 규제기관의 주요 우려사항으로 남아 있다.

서비스 중단의 전체적인 영향과 직간접 비용이 계속 증가하고 있다. 가장 최근의 심각한 서비스 중단을 묻는 질문에 절반 이상의 응답자가 지난 3년 동안의 서비스 중단과 10만 달러 이상의 추정 비용을 보고했다. 응답자 중 거의 1/3은 피해 비용이 100만 달러 이상이라고 답했다.

이런 경향은 자연스러운 것으로 볼 수 있다. 과거에는 데이터센터가 IT 인프라 자체였지만, 지금은 클라우드 서비스 업체와 SaaS가 추가됐다. 아웃룩 365가 중단되어도 IT 서비스 중단 사고이고, AWS가 장애를 일으켜도 마찬가지이다.

업타임의 리서치 담당 최고 디렉터인 앤디 로렌스는 발표문을 통해 “비즈니스 서비스를 제공하는 데 있어서 복구성은 여전히 최상위 관리 우선순위 근처에 있다”라며, “전체적으로 서비스 중단의 원인이 바뀌고 있다. 소프트웨어와 IT 구성 문제가 점점 더 보편화되고 있으며, 반면에 전력 문제는 이제 주요 IT 서비스의 중단 사고를 일으킬 가능성이 적다”고 설명했다.

업타임은 금융 거래나 정부 서비스, 인터넷과 통신에 영향을 미친 심각한 장애가 발생하긴 했지만, 언론의 머리기사를 장식했던 서비스 중단 사태 대부분은 일반 소비자와 재택근무자에게 영향을 미쳤다고 지적했다. 주로 마이크로소프트 익스체인지나 팀즈, 줌, 피트니스 트래커 등의 애플리케이션이 중단된 사고였다.

이외에 새로운 보고서의 주요 내용은 다음과 같다.
 
  • 44%의 데이터센터 운영업체가 지난 1년 동안 데이터센터 및 핵심 IT의 복구성에 관한 우려가 커졌다고 답했다.
  • 심각한 서비스 중단 사태는 줄었지만(6명 중 1명이 지난 3년 동안 심각한 장애 발생), 이해관계자에게는 괴멸적인 결과를 가져올 수 있다. 위험에 대한 각성과 관련 투자가 필요하다.
  • 서드파티 데이터 서비스를 사용하는 응답자의 56%가 지난 3년 동안 서비스 업체가 원인인 보통의 또는 심각한 IT 서비스 중단 사고를 경험했다.
  • 네트워킹과 환경 구성 문제가 서비스 장애의 주요 원인 중 두 가지로 떠올랐다. 반면 정전으로 인한 사고는 줄어들고 있는데, 전력 문제의 원인은 보통 IPS와 송전 스위치, 발전기의 장애 때문이었다.

기술 자체가 장애의 주범으로 지목되지만, 인적 요소도 간과할 수 없다. 사람의 실수가 어느 정도의 역할을 하는지는 정확하게 측정하기 어렵다. 업타임의 새 보고서에 따르면, 응답자의 42%가 지난 3년 동안 사람의 실수로 인한 서비스 중단 사태를 경험했다고 답했다.

이 중에서 57%는 데이터센터 인력의 잘못된 업무 수행을, 44%는 부적절한 인력이나 프로시저를 원인으로 지목했다. 조사에 따르면, 관리와 교육 훈련에 집중하는 것이 더 나은 서비스 성능을 제공하는 것은 확실하다. editor@itworld.co.kr


2021.04.26

“데이터센터 장애의 원인이 바뀐다” 정전보다는 환경 구성 : 업타임 보고서

Andy Patrizio | Network World
업타임 인스티튜트의 새로운 조사에 따르면, 데이터센터 운영업체에 전력은 점점 큰 문제가 아니다. 하지만 네트워킹과 소프트웨어가 더 큰 문제가 되고 있다.
 
ⓒ Elijah O'Donnell / Unsplash / Modified by IDG Comm. (CC0)

업타임의 세 번째 연례 서비스 중단 분석(Annual Outage Analysis) 보고서는 기술과 가용성의 개선에도 불구하고 서비스 중단은 여전히 관련 업계와 고객, 규제기관의 주요 우려사항으로 남아 있다.

서비스 중단의 전체적인 영향과 직간접 비용이 계속 증가하고 있다. 가장 최근의 심각한 서비스 중단을 묻는 질문에 절반 이상의 응답자가 지난 3년 동안의 서비스 중단과 10만 달러 이상의 추정 비용을 보고했다. 응답자 중 거의 1/3은 피해 비용이 100만 달러 이상이라고 답했다.

이런 경향은 자연스러운 것으로 볼 수 있다. 과거에는 데이터센터가 IT 인프라 자체였지만, 지금은 클라우드 서비스 업체와 SaaS가 추가됐다. 아웃룩 365가 중단되어도 IT 서비스 중단 사고이고, AWS가 장애를 일으켜도 마찬가지이다.

업타임의 리서치 담당 최고 디렉터인 앤디 로렌스는 발표문을 통해 “비즈니스 서비스를 제공하는 데 있어서 복구성은 여전히 최상위 관리 우선순위 근처에 있다”라며, “전체적으로 서비스 중단의 원인이 바뀌고 있다. 소프트웨어와 IT 구성 문제가 점점 더 보편화되고 있으며, 반면에 전력 문제는 이제 주요 IT 서비스의 중단 사고를 일으킬 가능성이 적다”고 설명했다.

업타임은 금융 거래나 정부 서비스, 인터넷과 통신에 영향을 미친 심각한 장애가 발생하긴 했지만, 언론의 머리기사를 장식했던 서비스 중단 사태 대부분은 일반 소비자와 재택근무자에게 영향을 미쳤다고 지적했다. 주로 마이크로소프트 익스체인지나 팀즈, 줌, 피트니스 트래커 등의 애플리케이션이 중단된 사고였다.

이외에 새로운 보고서의 주요 내용은 다음과 같다.
 
  • 44%의 데이터센터 운영업체가 지난 1년 동안 데이터센터 및 핵심 IT의 복구성에 관한 우려가 커졌다고 답했다.
  • 심각한 서비스 중단 사태는 줄었지만(6명 중 1명이 지난 3년 동안 심각한 장애 발생), 이해관계자에게는 괴멸적인 결과를 가져올 수 있다. 위험에 대한 각성과 관련 투자가 필요하다.
  • 서드파티 데이터 서비스를 사용하는 응답자의 56%가 지난 3년 동안 서비스 업체가 원인인 보통의 또는 심각한 IT 서비스 중단 사고를 경험했다.
  • 네트워킹과 환경 구성 문제가 서비스 장애의 주요 원인 중 두 가지로 떠올랐다. 반면 정전으로 인한 사고는 줄어들고 있는데, 전력 문제의 원인은 보통 IPS와 송전 스위치, 발전기의 장애 때문이었다.

기술 자체가 장애의 주범으로 지목되지만, 인적 요소도 간과할 수 없다. 사람의 실수가 어느 정도의 역할을 하는지는 정확하게 측정하기 어렵다. 업타임의 새 보고서에 따르면, 응답자의 42%가 지난 3년 동안 사람의 실수로 인한 서비스 중단 사태를 경험했다고 답했다.

이 중에서 57%는 데이터센터 인력의 잘못된 업무 수행을, 44%는 부적절한 인력이나 프로시저를 원인으로 지목했다. 조사에 따르면, 관리와 교육 훈련에 집중하는 것이 더 나은 서비스 성능을 제공하는 것은 확실하다. editor@itworld.co.kr


X