복잡해지기만 하는 데이터센터 워크로드…자동화와 클라우드 효과 아직 미흡 : 업타임 보고서
업타임 인스티튜트의 매년 실시하는 전 세계 데이터센터 서베이에 따르면, 클라우드 도입에도 불구하고 IT 부하의 대다수는 여전히 기업 데이터센터에서 구동되고 있다. 이는 IT 책임자에게 하이브리드 인프라 전반에 걸쳐 워크로드를 관리해야 만 하는 압박으로 작용한다.
특히 AI나 머신러닝 같이 프로세서 집약적인 워크로드가 전면에 나서면서 데이터센터는 더 많은 전력과 냉각을 확보해야 하는 과제에 직면했다. 이는 데이터센터 관리자는 물론 전력 및 냉각 솔루션 업체에도 늘어나는 수요를 만족해야 하는 부담이 생겼다.
그리고 이 모든 과제의 가장 위에 있는 것은 적절한 기술력을 갖춘 충분한 인력을 확보하기 어렵다는 것이다.
업타임 인스티튜트 보고서의 주요 내용은 다음과 같다.
- 대규모 사설 기업 데이터센터 시설은 여전히 기업 IT의 기반을 형성하고 있으며, 2021년까지 워크로드의 절반을 구동할 것으로 예상된다.
- 데이터센터 대부분 영역에 영향을 미치는 인력 문제는 더 나빠졌다. 61%의 응답자가 인력을 채용하고 유지하는 데 어려움을 겪고 있다고 답했는데, 전년도의 55%보다 증가했다.
- 서비스 중단 사태는 여전히 데이터센터 운영자에게 심각한 문제이다. 34%의 응답자가 지난 해 한 번 이상의 서비스 중단 또는 심각한 IT 서비스 장애를 겪었으며, 3년 내에 이런 사고를 겪은 응답자는 50%였다.
- 응답자의 10%가 가장 최근에 겪은 서비스 중단 사태로 100만 달러 이상의 손실을 입었다고 답했다.
- 퍼블릭 클라우드 서비스의 가시성, 투명성, 책임 부족은 기업의 미션 크리티컬 애플리케이션에는 여전히 우려사항이다. 설문에 참여한 데이터센터 운영자의 1/5는 가시성을 확보하면 더 많은 워크로드를 퍼블릭 클라우드에 올릴 것이라고 답했다. 이미 미션 크리티컬 애플리케이션용으로 퍼블릭 클라우드를 사용하는 응답자의 절반은 적절한 가시성이 없다고 답했다.
- 데이터센터 시설의 전력 효율 개선은 한계에 도달한 상태이며, 지난 2년 동안 오히려 조금 떨어지기도 했다. 2019년의 평균 PUE는 1.67이다.
- 랙당 전력 집적도는 오랫동안 현상 유지 또는 소폭 증가 상태였다가 다시 증가하기 시작했다. 많은 기업의 냉각 전략을 다시 생각하고 있다.
- 전력 손실은 서비스 중단의 가장 큰 원인 중 하나로, 전체 서비스 중단 원인의 1/3을 차지한다. 응답자의 60%는 데이터센터 중단 사태를 더 나은 관리 및 프로세스, 구성으로 막을 수 있었다고 답했다.
업타임은 전통적인 데이터센터는 “전력과 인프라, 연결성, 자체 IT 복제에 대한 엄정한 주의”를 통해 안정성을 개선하고 있다고 평가했다. 하지만 이 해법은 비용이 많이 든다. 데이터센터 운영자는 최소 두 곳 이상의 데이터센터가 서로의 데이터를 복제하는 액티브-액티브 데이터센터를 통해 분산된 복구성을 확보하는데, 응답자의 40%가 이 방법을 사용한다고 답했다.
참고로 업타임의 조사는 올해 3월부터 4월 사이에 50개국 1,100을 대상으로 실시했다, 대상자는 IT 관리자, 데이터센터 운영자 그룹과 데이터센터 관련 업계에 종사하는 공급업체, 설계자, 컨설턴트 그룹으로 나누었다. editor@itworld.co.kr