2018.08.23

데이터센터 전력 효율과 서비스 중단 비율이 같이 높아지는 이유

Andy Patrizio | Network World
업타임 인스티튜트(Uptime Institute)의 조사에 따르면, 데이터센터의 전력 관리가 전례없이 좋아지고 있는 한편으로, 서비스 중단 사고 발생률도 같이 높아지고 있다. 그리고 둘 간에는 인과 관계가 있다.

Image Credit : GettyImagesBank

글로벌 데이터센터 서베이(Global Data Center Survey) 보고서는 약 900명의 데이터센터 운영자와 IT 실무자로부터 설문 응답을 받았는데, 주로 대형 데이터센터 서비스 업체나 기업 데이터센터 소속이다.

이번 설문 조사에서 데이터센터의 전력 효율 기준인 PUE(Power Usage Effectiveness)는 1.58로 역대 최저치를 기록했다. 비교하자면, 2007년 평균 PUE는 2.5였고, 2011년에는 1.98로, 2013년에는 1.65로 떨어졌다.

PUE는 데이터센터를 운영하고 냉방하는 데 드는 전력을 측정한다. PUE가 2라면, 데이터센터를 운영하는 데 드는 만큼의 전기가 냉각하는 데도 든다는 것을 의미한다. PUE 1.5라면 IT 시스템을 구동하는 1와트가 들 때마다, 0.5와트의 전기가 냉각에 든다. 따라서 PUE를 낮추는 것이 데이터센터 운영자에게는 적지 않은 압박이 된다.

하지만 업타임은 또한 부정적인 경향도 발견했다. 인프라 중단과 심각한 서비스 악화 사고도 31%로, 지난 해 25%보다 6%나 증가했다. 지난 3년 간 응답자의 절반 이상이 자체 사이트 또는 서비스 업체 사이트에서 서비스 중단 사태를 경험한 것이다.

여기서 한 가지 의문을 제기할 수 있다. 낮은 PUE가 서비스 중단을 유발하는가? 운영자가 PUE에 집착하는 바람에 더 큰 사고가 발생한 것일까? 업타임 인스티튜트의 리서치 담당 부사장 론다 아시에르토의 대답은 ‘아니오’이다.

아시에르토는 “단정할 수 없다”며, “일부 미디어는 두 요소를 연결하기도 하지만, 상관관계가 있다고 해서 인과관계가 있는 것은 아니다. 분명히 연결 가능성이 있고 효율성과 관련된 다른 조사결과도 있지만, 우리는 둘을 함께 연결하지는 않았다”라고 설명했다.

대부분의 서비스 중단 사고는 1~4시간 지속됐다. 업타임은 서비스 중단의 비용을 추정해 줄 것으로 요청했지만, 응답자의 43%는 서비스 중단 비용을 계산하지 못했다. 이는 원인을 결정하는 데 너무나 많은 요인이 있고, 또 전문 영역 밖의 요소도 있기 때문이다. 중단 비용을 추정한 응답자 중 절반이 10만 달러 이하를 산정했지만, 3%의 응답자는 1,000만 달러 이상을 제시했다.

데이터센터 서비스 중단의 원인
데이터센터 중단 사고의 주요 원인은 정전(33%), 네트워크 장애(30%), IT 직원 또는 소프트웨어 에러(28%), 자체 데이터센터의 전력 외 문제(12%)였으며, 서비스 업체의 서비스 중단도 31%로 높았다. 실수는 사람의 몫이라는 것을 이번 조사는 다시 한 번 확인해 줬다. 80% 가까운 응답자가 가장 최근의 중단은 막을 수 있었다고 답했다. 사람의 실수에는 경영 의사결정도 포함되어 있다.

아시에르토는 “흔히 사람의 실수가 서비스 중단의 원인이라고 말하지만, 허술하게 유지하거나 출력을 낮춘 장비로 실행 요구사항을 만족하지 못하는 경우처럼 경영 실책도 포함된다”고 지적했다.

또 하나의 장애 요인으로는 데이터센터 콘솔리데이션이 지목됐다. 기업의 보조 데이터센터에서 주 데이터센터로 워크로드를 옮기는 경우를 말한다. 이 작업은 시간이 걸리고 보조 데이터센터는 퇴역하기 때문에 투자를 잘 하지 않는다. 낡고 관리되지 않는 장비가 사라질 데이터센터에 들어가면서 장애 가능성을 높이는 것이다.

폭포 효과도 문제의 원인 중 하나이다. 한 데이터센터의 장애가 다른 데이터센터에도 영향을 미치는 것이다. 두 곳의 자체 데이터센터나 온프레미스 데이터센터가 퍼블릭 클라우드와 연결된 하이브리드 환경에서 한 곳이 무너지면 다른 곳도 영향을 받을 가능성이 크다.

응답자의 24%가 여러 데이터센터에 걸친 서비스 중단을 경험했다고 답했다. 아시에르토는 “5년 전에는 이보다 훨씬 낮은 수치였다”며, 점점 더 많은 기업이 멀티클라우드 전략을 채택하고 여러 IT 서비스 간의 상호의존성이 커지면서 여러 사이트 간의 폭포 효과로 인한 서비스 중단은 앞으로도 늘어날 것으로 예상했다. 아시에르토는 “하이브리드 아키텍처가 훨씬 더 회복력이 강한 것으로 알려져 있지만, 가시성과 책임 소재를 확보하기 더 어렵기 때문에 장애 비율도 높다”고 덧붙였다.  editor@itworld.co.kr


2018.08.23

데이터센터 전력 효율과 서비스 중단 비율이 같이 높아지는 이유

Andy Patrizio | Network World
업타임 인스티튜트(Uptime Institute)의 조사에 따르면, 데이터센터의 전력 관리가 전례없이 좋아지고 있는 한편으로, 서비스 중단 사고 발생률도 같이 높아지고 있다. 그리고 둘 간에는 인과 관계가 있다.

Image Credit : GettyImagesBank

글로벌 데이터센터 서베이(Global Data Center Survey) 보고서는 약 900명의 데이터센터 운영자와 IT 실무자로부터 설문 응답을 받았는데, 주로 대형 데이터센터 서비스 업체나 기업 데이터센터 소속이다.

이번 설문 조사에서 데이터센터의 전력 효율 기준인 PUE(Power Usage Effectiveness)는 1.58로 역대 최저치를 기록했다. 비교하자면, 2007년 평균 PUE는 2.5였고, 2011년에는 1.98로, 2013년에는 1.65로 떨어졌다.

PUE는 데이터센터를 운영하고 냉방하는 데 드는 전력을 측정한다. PUE가 2라면, 데이터센터를 운영하는 데 드는 만큼의 전기가 냉각하는 데도 든다는 것을 의미한다. PUE 1.5라면 IT 시스템을 구동하는 1와트가 들 때마다, 0.5와트의 전기가 냉각에 든다. 따라서 PUE를 낮추는 것이 데이터센터 운영자에게는 적지 않은 압박이 된다.

하지만 업타임은 또한 부정적인 경향도 발견했다. 인프라 중단과 심각한 서비스 악화 사고도 31%로, 지난 해 25%보다 6%나 증가했다. 지난 3년 간 응답자의 절반 이상이 자체 사이트 또는 서비스 업체 사이트에서 서비스 중단 사태를 경험한 것이다.

여기서 한 가지 의문을 제기할 수 있다. 낮은 PUE가 서비스 중단을 유발하는가? 운영자가 PUE에 집착하는 바람에 더 큰 사고가 발생한 것일까? 업타임 인스티튜트의 리서치 담당 부사장 론다 아시에르토의 대답은 ‘아니오’이다.

아시에르토는 “단정할 수 없다”며, “일부 미디어는 두 요소를 연결하기도 하지만, 상관관계가 있다고 해서 인과관계가 있는 것은 아니다. 분명히 연결 가능성이 있고 효율성과 관련된 다른 조사결과도 있지만, 우리는 둘을 함께 연결하지는 않았다”라고 설명했다.

대부분의 서비스 중단 사고는 1~4시간 지속됐다. 업타임은 서비스 중단의 비용을 추정해 줄 것으로 요청했지만, 응답자의 43%는 서비스 중단 비용을 계산하지 못했다. 이는 원인을 결정하는 데 너무나 많은 요인이 있고, 또 전문 영역 밖의 요소도 있기 때문이다. 중단 비용을 추정한 응답자 중 절반이 10만 달러 이하를 산정했지만, 3%의 응답자는 1,000만 달러 이상을 제시했다.

데이터센터 서비스 중단의 원인
데이터센터 중단 사고의 주요 원인은 정전(33%), 네트워크 장애(30%), IT 직원 또는 소프트웨어 에러(28%), 자체 데이터센터의 전력 외 문제(12%)였으며, 서비스 업체의 서비스 중단도 31%로 높았다. 실수는 사람의 몫이라는 것을 이번 조사는 다시 한 번 확인해 줬다. 80% 가까운 응답자가 가장 최근의 중단은 막을 수 있었다고 답했다. 사람의 실수에는 경영 의사결정도 포함되어 있다.

아시에르토는 “흔히 사람의 실수가 서비스 중단의 원인이라고 말하지만, 허술하게 유지하거나 출력을 낮춘 장비로 실행 요구사항을 만족하지 못하는 경우처럼 경영 실책도 포함된다”고 지적했다.

또 하나의 장애 요인으로는 데이터센터 콘솔리데이션이 지목됐다. 기업의 보조 데이터센터에서 주 데이터센터로 워크로드를 옮기는 경우를 말한다. 이 작업은 시간이 걸리고 보조 데이터센터는 퇴역하기 때문에 투자를 잘 하지 않는다. 낡고 관리되지 않는 장비가 사라질 데이터센터에 들어가면서 장애 가능성을 높이는 것이다.

폭포 효과도 문제의 원인 중 하나이다. 한 데이터센터의 장애가 다른 데이터센터에도 영향을 미치는 것이다. 두 곳의 자체 데이터센터나 온프레미스 데이터센터가 퍼블릭 클라우드와 연결된 하이브리드 환경에서 한 곳이 무너지면 다른 곳도 영향을 받을 가능성이 크다.

응답자의 24%가 여러 데이터센터에 걸친 서비스 중단을 경험했다고 답했다. 아시에르토는 “5년 전에는 이보다 훨씬 낮은 수치였다”며, 점점 더 많은 기업이 멀티클라우드 전략을 채택하고 여러 IT 서비스 간의 상호의존성이 커지면서 여러 사이트 간의 폭포 효과로 인한 서비스 중단은 앞으로도 늘어날 것으로 예상했다. 아시에르토는 “하이브리드 아키텍처가 훨씬 더 회복력이 강한 것으로 알려져 있지만, 가시성과 책임 소재를 확보하기 더 어렵기 때문에 장애 비율도 높다”고 덧붙였다.  editor@itworld.co.kr


X