2019.03.25

네트워크 문제로 인한 데이터센터 가동 정지 증가 중

Ann Bednarz | Network World
데이터센터 가동 정지를 유발하는 일반적인 원인 중 하나는 정전이다. 그러나 정전이 유일한 원인은 아니다. 기업 컴퓨팅 환경의 복잡성이 높아지면서 IT 시스템과 네트워크의 장애로 인해 데이터센터 가동이 멈추는 사례가 늘고 있는 것으로 나타났다.
 
ⓒGettyImagesBank

업타임 인스티튜트(Uptime Institute)는 불시의 다운타임을 유발하는 요소를 파악하고자 공개적으로 보고된 가동 정지 사례를 연구해왔다. 지난 3년 동안 전통적인 미디어 또는 소셜 미디어에 보고된 162건의 가동 정지 사례에서 정보를 수집했는데, 이 기간 동안 가용 데이터의 양은 꾸준히 증가했다. 연구진이 데이터를 수집한 가동 정지 사례는 2016년 27건, 2017년 57건에 이어 2018년에는 78건으로 늘었다.

복원성 서비스와 데이터센터 구축 및 운영 자문, 인증 서비스를 제공하는 업타임 인스티튜트의 리서치 책임자 앤디 로렌스는 “뉴스에 보도되는 가동 정지 사례가 계속 증가하고 있다”고 말했다.

로렌스는 이번 연구 결과를 발표하면서 “업계의 기록을 보면 거의 매일 전 세계 곳곳에서 심각한 가동 정지가 발생한다”면서 “가동 정지 건수 자체가 급증한다고 단정할 수는 없지만, 다운타임에 대한 관심은 커지고 있다. 정지가 미치는 영향이 확대되고 있는 것은 분명해 보인다”고 말했다.

업타임 인스티튜트 연구에서 발견한 중대한 사실은 전체적인 장애에서 정전보다 네트워크와 IT 시스템의 문제가 원인으로 작용하는 경우가 더 많다는 것이다. 전원 시스템의 안정성이 과거에 비해 향상되면서 온프레미스 데이터센터의 전원 장애가 줄어든 덕분이다.

업타임 인스티튜트의 CTO 크리스 브라운은 지난 20년 동안 IT 업계는 전원 시스템의 일부에 오류 또는 장애가 발생하더라도 IT 자산 운영을 지속할 수 있게 해주는 시스템을 설계하는 데 주력해왔다면서 “이중 코드 IT 장비에 전원을 공급하는 2N 전원 분배 시스템이 나오면서 IT 시스템은 단일 사고에 대한 예비성을 갖춰 가동을 유지할 수 있게 됐다”고 설명했다.

한편 IT 환경의 복잡성이 커지면서 IT 및 네트워크 관련 문제도 덩달아 늘어났다. 업타임 인스티튜트의 IT 최적화 및 전략 부문 부사장인 토드 트래버는 “현재 데이터는 여러 위치에 걸쳐 분산되며 애플리케이션 설계와 데이터베이스 복제 방식 측면에서 네트워크에 대한 의존성이 상당히 높다. 시스템이 매우 복잡해지면서 과거에 비해 시스템 혼란이 발생하는 조건도 다양해졌다”고 지적했다.
 

데이터센터 가동 정지의 심각성 평가

업타임 인스티튜트는 비즈니스 피해를 유발하는 가동 정지와 단순히 불편함을 초래하는 정도의 가동 정지를 구분하기 위한 척도를 마련했다. 로렌스는 이 평가 시스템을 통해 연구진은 시간 경과에 따른 패턴의 변화를 확인할 수 있다고 말했다. 척도는 다음과 같은 5개 계층으로 구성된다.

- 레벨 1은 무시해도 될 정도의 가동 정지다. 기록은 되지만 서비스에 미치는 영향이 미미하거나 없고 서비스 중단도 발생하지 않는다.

- 레벨 2는 최소한의 서비스 정지로 분류된다. 서비스가 단절되지만 사용자, 고객 또는 기업 평판에 미치는 영향은 미미하다.
- 레벨 3은 비즈니스 측면에서 유의미한 서비스 정지다. 고객 또는 사용자 서비스의 중단이 발생하지만 그 범위와 기간, 파급 효과는 대부분 제한적이다. 재무적인 영향은 미세하거나 없다. 일부 평판 또는 규정 준수 측면의 영향이 발생할 수 있다.
- 레벨 4는 심각한 비즈니스 또는 서비스 정지다. 서비스 및 운영 중단이 발생한다. 그 파급 효과로 일부 재무적 손실, 규정 위반, 평판 손상, 그리고 경우에 따라 안전 측면의 위험이 발생할 수 있다. 고객 손실 가능성도 있다.
- 레벨 5는 비즈니스 또는 미션 크리티컬한 정지로, 중대하고 피해가 큰 서비스 및 운영 중단이 발생한다. 상당한 재무적 손실, 안전 문제, 규정 위반, 고객 손실 및 평판 손상으로 이어질 수 있다.

업타임 인스티튜트가 3년 동안 공개적으로 보고된 모든 데이터센터 가동 정지(레벨 1~5) 사례를 조사한 결과 가동 정지의 주된 원인은 전원이 아닌 IT 시스템과 네트워크 문제인 것으로 드러났다. 
 
ⓒNetworkworld


이 추세는 특히 연도별 원인 비교에서 두드러지게 나타난다. 2017년에는 전원 문제가 가동 정지 원인의 28%로 큰 비중을 차지했지만, 2018년에는 11%로 줄어들었다. IT 시스템 관련 장애가 가동 정지의 원인이 된 비율은 2017는 32%, 2018년 35%로 비교적 일정하게 유지되는 추세를 보였다. 네트워크가 원인이 된 비율은 2017년 19%에서 2018년 32%로 크게 늘었다.

트래버는 2018년 네트워크 원인의 장애가 급증한 것에 대해 “네트워크 정지로 인한 중단이 크게 증가한 이유는 여러 가지 요소의 상호 연결성에 있다”면서 “이제 1~2곳의 사이트가 아니라 3~4곳, 그 이상의 사이트에 걸쳐 연결된다. IT 복원성 측면에서 네트워크의 역할이 계속 커지고 있다”고 설명했다.

또한 많은 IT 리소스가 서비스 업체에 전달되면서 이러한 리소스를 사용하는 조직의 직접적인 통제 범위를 벗어나고, 이로 인해 관리와 운영의 복잡성도 높아지고 있다. 트래버는 “2018년에 발생한 가동 정지의 2/3는 네트워크 및 IT와 관련된다. 과거에 비해 크게 달라진 점”이라고 덧붙였다.
 

데이터센터 다운타임 분석

업타임 인스티튜트는 데이터센터 가동 정지의 구체적인 원인도 들여다봤다. 네트워크와 관련된 일반적인 가동 정지 원인은 다음과 같다.

- 데이터센터 외부의 광섬유 절단 및 부실한 라우팅 대안
- 주요 스위치의 간헐적인 장애. 보조 라우터가 배치되어 있지 않음
- 백업이 없는 상태에서 주요 스위치의 장애 발생
- 유지보수 중 부정확한 트래픽 구성
- 잘못 구성된 라우터 및 소프트웨어 정의 네트워크
- 백업되지 않는 단일 구성 요소(스위치 및 라우터)에 대한 전원 공급 손실



2019.03.25

네트워크 문제로 인한 데이터센터 가동 정지 증가 중

Ann Bednarz | Network World
데이터센터 가동 정지를 유발하는 일반적인 원인 중 하나는 정전이다. 그러나 정전이 유일한 원인은 아니다. 기업 컴퓨팅 환경의 복잡성이 높아지면서 IT 시스템과 네트워크의 장애로 인해 데이터센터 가동이 멈추는 사례가 늘고 있는 것으로 나타났다.
 
ⓒGettyImagesBank

업타임 인스티튜트(Uptime Institute)는 불시의 다운타임을 유발하는 요소를 파악하고자 공개적으로 보고된 가동 정지 사례를 연구해왔다. 지난 3년 동안 전통적인 미디어 또는 소셜 미디어에 보고된 162건의 가동 정지 사례에서 정보를 수집했는데, 이 기간 동안 가용 데이터의 양은 꾸준히 증가했다. 연구진이 데이터를 수집한 가동 정지 사례는 2016년 27건, 2017년 57건에 이어 2018년에는 78건으로 늘었다.

복원성 서비스와 데이터센터 구축 및 운영 자문, 인증 서비스를 제공하는 업타임 인스티튜트의 리서치 책임자 앤디 로렌스는 “뉴스에 보도되는 가동 정지 사례가 계속 증가하고 있다”고 말했다.

로렌스는 이번 연구 결과를 발표하면서 “업계의 기록을 보면 거의 매일 전 세계 곳곳에서 심각한 가동 정지가 발생한다”면서 “가동 정지 건수 자체가 급증한다고 단정할 수는 없지만, 다운타임에 대한 관심은 커지고 있다. 정지가 미치는 영향이 확대되고 있는 것은 분명해 보인다”고 말했다.

업타임 인스티튜트 연구에서 발견한 중대한 사실은 전체적인 장애에서 정전보다 네트워크와 IT 시스템의 문제가 원인으로 작용하는 경우가 더 많다는 것이다. 전원 시스템의 안정성이 과거에 비해 향상되면서 온프레미스 데이터센터의 전원 장애가 줄어든 덕분이다.

업타임 인스티튜트의 CTO 크리스 브라운은 지난 20년 동안 IT 업계는 전원 시스템의 일부에 오류 또는 장애가 발생하더라도 IT 자산 운영을 지속할 수 있게 해주는 시스템을 설계하는 데 주력해왔다면서 “이중 코드 IT 장비에 전원을 공급하는 2N 전원 분배 시스템이 나오면서 IT 시스템은 단일 사고에 대한 예비성을 갖춰 가동을 유지할 수 있게 됐다”고 설명했다.

한편 IT 환경의 복잡성이 커지면서 IT 및 네트워크 관련 문제도 덩달아 늘어났다. 업타임 인스티튜트의 IT 최적화 및 전략 부문 부사장인 토드 트래버는 “현재 데이터는 여러 위치에 걸쳐 분산되며 애플리케이션 설계와 데이터베이스 복제 방식 측면에서 네트워크에 대한 의존성이 상당히 높다. 시스템이 매우 복잡해지면서 과거에 비해 시스템 혼란이 발생하는 조건도 다양해졌다”고 지적했다.
 

데이터센터 가동 정지의 심각성 평가

업타임 인스티튜트는 비즈니스 피해를 유발하는 가동 정지와 단순히 불편함을 초래하는 정도의 가동 정지를 구분하기 위한 척도를 마련했다. 로렌스는 이 평가 시스템을 통해 연구진은 시간 경과에 따른 패턴의 변화를 확인할 수 있다고 말했다. 척도는 다음과 같은 5개 계층으로 구성된다.

- 레벨 1은 무시해도 될 정도의 가동 정지다. 기록은 되지만 서비스에 미치는 영향이 미미하거나 없고 서비스 중단도 발생하지 않는다.

- 레벨 2는 최소한의 서비스 정지로 분류된다. 서비스가 단절되지만 사용자, 고객 또는 기업 평판에 미치는 영향은 미미하다.
- 레벨 3은 비즈니스 측면에서 유의미한 서비스 정지다. 고객 또는 사용자 서비스의 중단이 발생하지만 그 범위와 기간, 파급 효과는 대부분 제한적이다. 재무적인 영향은 미세하거나 없다. 일부 평판 또는 규정 준수 측면의 영향이 발생할 수 있다.
- 레벨 4는 심각한 비즈니스 또는 서비스 정지다. 서비스 및 운영 중단이 발생한다. 그 파급 효과로 일부 재무적 손실, 규정 위반, 평판 손상, 그리고 경우에 따라 안전 측면의 위험이 발생할 수 있다. 고객 손실 가능성도 있다.
- 레벨 5는 비즈니스 또는 미션 크리티컬한 정지로, 중대하고 피해가 큰 서비스 및 운영 중단이 발생한다. 상당한 재무적 손실, 안전 문제, 규정 위반, 고객 손실 및 평판 손상으로 이어질 수 있다.

업타임 인스티튜트가 3년 동안 공개적으로 보고된 모든 데이터센터 가동 정지(레벨 1~5) 사례를 조사한 결과 가동 정지의 주된 원인은 전원이 아닌 IT 시스템과 네트워크 문제인 것으로 드러났다. 
 
ⓒNetworkworld


이 추세는 특히 연도별 원인 비교에서 두드러지게 나타난다. 2017년에는 전원 문제가 가동 정지 원인의 28%로 큰 비중을 차지했지만, 2018년에는 11%로 줄어들었다. IT 시스템 관련 장애가 가동 정지의 원인이 된 비율은 2017는 32%, 2018년 35%로 비교적 일정하게 유지되는 추세를 보였다. 네트워크가 원인이 된 비율은 2017년 19%에서 2018년 32%로 크게 늘었다.

트래버는 2018년 네트워크 원인의 장애가 급증한 것에 대해 “네트워크 정지로 인한 중단이 크게 증가한 이유는 여러 가지 요소의 상호 연결성에 있다”면서 “이제 1~2곳의 사이트가 아니라 3~4곳, 그 이상의 사이트에 걸쳐 연결된다. IT 복원성 측면에서 네트워크의 역할이 계속 커지고 있다”고 설명했다.

또한 많은 IT 리소스가 서비스 업체에 전달되면서 이러한 리소스를 사용하는 조직의 직접적인 통제 범위를 벗어나고, 이로 인해 관리와 운영의 복잡성도 높아지고 있다. 트래버는 “2018년에 발생한 가동 정지의 2/3는 네트워크 및 IT와 관련된다. 과거에 비해 크게 달라진 점”이라고 덧붙였다.
 

데이터센터 다운타임 분석

업타임 인스티튜트는 데이터센터 가동 정지의 구체적인 원인도 들여다봤다. 네트워크와 관련된 일반적인 가동 정지 원인은 다음과 같다.

- 데이터센터 외부의 광섬유 절단 및 부실한 라우팅 대안
- 주요 스위치의 간헐적인 장애. 보조 라우터가 배치되어 있지 않음
- 백업이 없는 상태에서 주요 스위치의 장애 발생
- 유지보수 중 부정확한 트래픽 구성
- 잘못 구성된 라우터 및 소프트웨어 정의 네트워크
- 백업되지 않는 단일 구성 요소(스위치 및 라우터)에 대한 전원 공급 손실



X