Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

서비스중단

주시해야 할 2021년 데이터센터 트렌드 6가지

데이터센터는 날로 증가하는 복잡성과 운영 과제에 직면해 있다. 업타임 인스터튜트(Uptime Institute)에 따르면, 미셜 크리티컬 워크로드에 퍼블릭 클라우드를 사용하는 기업이 늘어나고 있지만, 많은 기업이 클라우드 서비스 업체의 인프라 운영에 대한 투명성을 요구하고 있다. 업타임 인스티튜트의 2021 글로벌 데이터센터 서베이 결과 중 용량 증가, 지출, 기술 도입, 인력 고용 등의 핵심 트렌드를 살펴본다.     데이터센터 서비스 중단은 줄고 비용은 늘고 업타임은 연례 조사에서 3년 동안 발생한 서비스 중단이나 정지의 횟수와 심각성을 조사한다. 중단이나 정지 횟수의 경우, 2021년 조사 대상 데이터센터의 69%가 지난 3년 동안 일부 서비스 중단 문제를 겪었다고 답했다. 2020년에 이렇게 대답한 비율은 이보다 높은 78%였다. 업타임에 따르면, 중단이나 정지 횟수가 개선된 것은 팬데믹 위기로 인한 운영 측면의 변화와 관련이 있는 것으로 보인다. 보고서는 “최근에 이루어진 개선은 부분적으로 코로나19의 영향과 관련이 있다. 예상과 달리, 2020년에는 데이터센터의 대규모 서비스 중단 사태가 없었다. 기업 데이터센터 활동이 감소한 것, 기업 내부와 현장에 위치한 인력이 줄어든 것, 업그레이드가 감소한 것, 많은 조직에서 워크로드와 트래픽이 감소한 것, 클라우드/퍼블릭 인터넷 기반 애플리케이션 사용이 증가한 것이 이유일 것이다”라고 설명했다. 서비스 중단의 심각도에 있어서는 약 50%가 매출, 시간, 평판 측면에서 손해나 피해를 입은 것으로 조사됐다. 올해 보고서에 따르면, 20% 정도의 서비스 중단이 심각하거나 중대한 사고였다.  서비스 중단 사고의 원인으로는 여전히 전력이 43%로 가장 비중이 컸고, 네트워크 문제(14%), 냉방 문제(14%), 소프트웨어/IT 시스템 장애(14%)가 그 뒤를 이었다.   클라우드의 미션 크리티컬 워크로드 증가  데이터센터 보유 기업은 점점 더 많은 미션 크리티컬...

서베이 업타임 서비스중단 2021.10.07

페이스북 서비스 중단 사태 “불운의 연속이 만들어낸 참사”

잘못 작성된 명령어, 버그투성이 감사 툴, 네트워크 복구를 방해한 DNS 시스템, 엄격한 데이터센터 보안이 연쇄적으로 일어나며 페이스북을 어떻게 해 볼 수 없는 대혼란의 7시간에 빠뜨렸다. 페이스북은 최근 발생한 자사 서비스 중단 사태의 근본 원인은 정기적인 유지보수 작업이 잘못되어 DNS 서비스를 사용할 수 없게 된 것이지만, 처음에는 페이스북 전체 백본 네트워크가 붕괴되었다고 밝혔다.   문제를 더 악화시킨 것은 DNS 중단이다. 이 때문에 페이스북 엔지니어는 백업 네트워크를 가동하는 데 필요한 장비에 원격으로 액세스할 수 없었다. 담당 엔지니어들은 결국 수동으로 시스템을 재가동하기 위해 데이터센터로 직접 가야만 했다.  이걸로 끝이 아니다. 늦어진 대응을 더욱 느리게 만든 것은 데이터센터의 경비원이었다. 이들은 그 누구도 데이터센터에 쉽게 접근하지 못하도록 했다. 페이스북 엔지니어링 및 인프라 담당 부사장 산토시 야나르단이 작성한 페이스북 블로그에 따르면, 엔지니어들은 데이터센터 안으로 들어가기 어려웠으며, 들어간 후에도 하드웨어와 라우터가 물리적으로 데이터센터에 액세스하더라도 고치기 어렵게 설계되어 있었다.   시간이 걸렸지만, 일단 시스템이 복구된 다음에는 네트워크가 정상으로 돌아왔다. 복구한 네트워크를 통해 실행되는 고객들이 사용하는 서비스를 복구하는 것은 또 다른 긴 프로세스이다. 이들 서비스를 한꺼번에 재가동하면 다른 충돌이 발생할 수 있기 때문이다. 야나르단은 “각 데이터센터는 전략 사용량에 있어서 10메가와트 정도의 부족을 보고하고 있는 상태였고, 이런 상황에서 갑작스러운 가동은 전력 시스템에서 나오는 모든 것을 위험에 빠뜨릴 수 있다”고 설명했다.   정기적인 유지보수의 실패 서비스 중단을 촉발한 것은 오전 11시 39분에 이뤄진 유지보수 작업으로, 이 작업 중에 실수로 백본 네트워크 일부의 연결을 끊었다. 이 정기적인 유지보수 작업 중에 전 세계 백본 용량의 가용성을 검사하는 명령어를 실행하는...

페이스북 백본 DNS 2021.10.07

IDG 블로그 | 클라우드 서비스 업체가 사용 중인 서비스를 만료시킬 때

최근 몇 년 동안 필자의 지인이나 고객이 사용 중인 클라우드 서비스가 없어졌다고 불평을 하는 경우가 적지 않았다. 이름 있는 퍼블릭 클라우드 서비스 업체나 2군에 속하는 업체나 마찬가지였다. 때에 따라 클라우드 전체가 문을 닫는 경우도 있었다.   클라우드 서비스 업체는 보통 충분히 공지한다. 이런 서비스를 ‘레거시’ 또는 ‘클래식’이라고 부르며 몇 년에 걸쳐 공지하기도 한다. 다른 유사한 서비스로 이전할 수 있는 마이그레이션 툴이나 처리 방법도 제공한다. 경쟁업체로도 옮겨야 할 때도 있고, 마이그레이션 때문에 컨설턴트를 붙여 주기도 한다. 필자 역시 여러 해 동안 IT 업체의 CTO를 맡으면서 판매하던 기술의 일부 또는 전체를 만료시켜야 했다. 기술 지원이 없어지고 결국에는 해당 기술을 더 이상 사용할 수 없게 된다. 다시 한 번 말하지만, 이런 일은 충분한 공지와 함께 진행된다. 마이그레이션을 위한 툴을 제공하고, 필요하면 좀 더 현대적이고 더 나은 솔루션으로 옮길 수 있도록 자금도 지원한다.  고객은 이 과정을 주의 깊게 지켜봤으며, 어떤 해에는 여러 기술을 한꺼번에 만료시키기도 했다. 실제로 IT 업체는 이 작업을 망치는 경우가 적지 않으며, 그래서 금방 고객의 적이 되곤 한다. PR 문제가 불거져 회사를 급하게 매각하는 경우도 있었다. 클라우드 컴퓨팅은 어떤 소비 모델을 사용하더라도 이런 문제가 있다. 하지만 클라우드 기술은 기업의 데이터센터에 있지 않으며, 서비스가 없어지면 기업으로서는 이를 계속 실행할 방법이 없다. 클라우드 컴퓨팅이 막 퍼져 나가던 시절에는 서비스는 물론, 서비스 업체 자체가 없어지기도 하고 크게 바뀌는 일이 드물지 않았다. 제대로 된 공지도 없이 중단되는 경우도 있어서 해당 서비스에 의존하던 애플리케이션이 중단되기도 했다. 그나마 다행인 것은 당시에는 대부분 기업이 주로 필수적이지 않은 워크로드를 클라우드에 배치했다. 하지만 오늘날은 사정이 다르다. 클라우드 보안처럼 공동 책임이다. 클라우드 서비스...

서비스중단 만료 업그레이드 2021.08.30

“데이터센터 장애의 원인이 바뀐다” 정전보다는 환경 구성 : 업타임 보고서

업타임 인스티튜트의 새로운 조사에 따르면, 데이터센터 운영업체에 전력은 점점 큰 문제가 아니다. 하지만 네트워킹과 소프트웨어가 더 큰 문제가 되고 있다.   업타임의 세 번째 연례 서비스 중단 분석(Annual Outage Analysis) 보고서는 기술과 가용성의 개선에도 불구하고 서비스 중단은 여전히 관련 업계와 고객, 규제기관의 주요 우려사항으로 남아 있다. 서비스 중단의 전체적인 영향과 직간접 비용이 계속 증가하고 있다. 가장 최근의 심각한 서비스 중단을 묻는 질문에 절반 이상의 응답자가 지난 3년 동안의 서비스 중단과 10만 달러 이상의 추정 비용을 보고했다. 응답자 중 거의 1/3은 피해 비용이 100만 달러 이상이라고 답했다. 이런 경향은 자연스러운 것으로 볼 수 있다. 과거에는 데이터센터가 IT 인프라 자체였지만, 지금은 클라우드 서비스 업체와 SaaS가 추가됐다. 아웃룩 365가 중단되어도 IT 서비스 중단 사고이고, AWS가 장애를 일으켜도 마찬가지이다. 업타임의 리서치 담당 최고 디렉터인 앤디 로렌스는 발표문을 통해 “비즈니스 서비스를 제공하는 데 있어서 복구성은 여전히 최상위 관리 우선순위 근처에 있다”라며, “전체적으로 서비스 중단의 원인이 바뀌고 있다. 소프트웨어와 IT 구성 문제가 점점 더 보편화되고 있으며, 반면에 전력 문제는 이제 주요 IT 서비스의 중단 사고를 일으킬 가능성이 적다”고 설명했다. 업타임은 금융 거래나 정부 서비스, 인터넷과 통신에 영향을 미친 심각한 장애가 발생하긴 했지만, 언론의 머리기사를 장식했던 서비스 중단 사태 대부분은 일반 소비자와 재택근무자에게 영향을 미쳤다고 지적했다. 주로 마이크로소프트 익스체인지나 팀즈, 줌, 피트니스 트래커 등의 애플리케이션이 중단된 사고였다. 이외에 새로운 보고서의 주요 내용은 다음과 같다.   44%의 데이터센터 운영업체가 지난 1년 동안 데이터센터 및 핵심 IT의 복구성에 관한 우려가 커졌다고 답했다. 심각한 서비스 중단 사태는 줄었지만(...

데이터센터 장애 서비스중단 2021.04.26

“아쉽거나 속 시원하거나” 2020년에 사장된 기술 및 서비스 모음

2020년 같은 해에도 기술 세계에서 바뀌지 않는 것이 있다. 특정 디바이스, 기술, 서비스가 단종되거나 중단된 것이다. 저마다 사연이 있다. 아쉬운 것도 있고, 전혀 아쉽지 않은 것도 있으며, 속이 시원한 것들도 있다. 올해는 관심사를 기준으로 사장된 기술을 분류해봤다.     아쉬운 기술 팜빌(FarmVille) 종말을 고한 일부 플래시 게임들은 그럴 만한 이유가 있지만, 징가(Zynga)의 팜빌만큼 대중의 상상력을 자극한 게임도 없다. 징가는 2020년 12월 31일을 기준으로 나머지 플래시 세상과 함께 팜빌 서비스가 중단될 것이라고 발표했다. 팜빌은 페이스북에서 서비스되는 게임으로, 몇 년간 페이스북에서 상당히 중요한 역할을 했다. 뉴욕타임즈의 보도에 따르면, 2009년 6월부터 10월 사이에 6,200만 명의 사람들이 이 게임을 하기 위해 가입했다. 당시 이 숫자는 페이스북의 글로벌 사용자 수의 약 1/5 수준이었다. 팜빌은 거대했고, 중독성이 있었으며, 모든 것을 갖췄었다. 비판, 레이디 가가 파생 상품, 비즈니스 스캔들, 그리고 끔찍한 사건과도 관련되면서, 화제를 모았다. 팜빌에서는 가상의 작물과 가축을 키워 농장을 가꾸었다. 농장을 자유롭게 설계할 수 있었고, 노력할수록 농장이 더 크게 발전했다. 게임 내 구매를 통해 진행 속도를 높일 수도 있었다. 중독성 있는 부분은 팜빌이 직접 농사를 짓는지 여부에 상관없이 실시간으로 이루어졌다는 점이다. 이로 인해 하루 종일 작물을 추수할 준비가 됐다는 무수히 많은 알림을 받게 됐다. 팜빌 플레이어들은 모든 노력이 수포로 돌아갈 수 있었기 때문에 수확을 미루기가 어려웠다.  결과적으로 이전에는 볼 수 없었던 수준으로 게임에 집착하게 됐다. 농장이 그리운 사람들은 팜빌 3을 할 수 있다.   구글 플레이 뮤직 약 10년 전 클라우드 기반 음악 서비스는 아마존, 애플, 구글 등 대기업이 제공했었다. 하지만 안정화가 되면 오직 1개 또는 2~3개 정도의 서비스만 남...

2020년 사장 사망 2021.01.05

데이터센터 가동시간에 가장 위험한 요소는 사람 : 업타임 설문조사

오래된 농담이 있다. “인간은 실수하기 마련이지만, 일을 진짜로 망치려면 컴퓨터가 있어야 한다.” 하지만 이제는 그 반대가 현실이다. 그동안 데이터센터 장비의 안정성은 크게 향상된 반면, 이를 운영하는 인간은 여전히 실수를 하기 때문이다. 그리고 이제 인간은 데이터센터 가동시간의 위협 요소가 되고 있다.   업타임 인스티튜트(Uptime Institute)는 서비스 중단 사태에 대해 수천 명의 IT 전문가를 대상으로 1년 내내 설문조사를 진행했는데, 데이터센터 장애의 대다수인 70~75%가 사람의 실수 때문에 발생한 것으로 나타났다. 그리고 이런 장애 중 일부는 심각한 것이었다. IT 서비스 및 데이터센터 운영업체의 30%가 지난 한 해 동안 “심각한 서비스 악화”라고 부르는 서비스 중단을 경험했는데, 응답자의 10%는 가장 최근의 사고로 100만 달러 이상의 손실이 발생했다고 답했다. 이번 조사에서 60%의 응답자가 가장 최근의 심각한 서비스 중단 사고를 더 나은 관리나 프로세스, 환경 구성으로 방지할 수 있었다고 답했다. 100만 달러 이상의 손실이 난 서비스 중단 사고의 경우 이 비율은 74%까지 증가한다.  하지만 업타임은 최종 책임이 모두 사람에게 있는 것은 아니라고 주장한다. 이들을 관리하는 데 실패한 경영진이 있기 때문이다. 업타임은 가장 기본적이고 중요한 작업의 많은 부분을 인력에 의존해 수행하기 때문에 사람의 실수를 완전히 막을 수 없다고 전제하고, 장애가 계속되는 데는 부족한 교육 훈련과 미흡한 정책, 구식 절차와 숙련된 인력의 중요성 과소평가 등 임원진이 서비스 중단으로 이어질 수 있는 환경을 만들었다고 지적했다. 또한 업타임은 기업 인프라의 복잡성, 특히 분산 특성도 단순한 실수가 서비스 중단으로 이어질 위험을 높일 수 있다며, 기업이 복잡성으로 인한 위험성을 증가를 정확하게 인지할 필요가 있다고 지적했다.  editor@itworld.co.kr

설문조사 장애 서비스중단 2019.10.10

글로벌 칼럼 | 클라우드 서비스의 가용성과 실제 서비스 중단 시간

오늘날 클라우드의 가동시간은 매우 중요하지만, 업체가 제공하는 데이터는 혼란스럽다. 3대 클라우드 서비스를 비교 분석해 본다. 많은 기업에 클라우드는 그저 중요한 정도가 아니라 이른바 ‘미션 크리티컬한’ 존재이다. 점점 더 많은 IT 책임자와 사업 책임자가 퍼블릭 클라우드를 자사 디지털 트랜스포메이션 전략의 핵심 구성요소로 여기고 있으며, 퍼블릭 클라우드를 하이브리드 클라우드의 일부로 또는 온전히 퍼블릭 클라우드로 사용한다. 클라우드의 서비스 중단 사태는 이제 기업의 핵심 서비스가 중단되는 것을 의미하며, 이 때문에 클라우드의 안정성에 대한 기준 역시 높아졌다. 따라서 클라우드 구매자에게는 클라우드 서비스 업체의 안정성을 나타내는 수치를 정확하게 파악하는 것이 중요하다. 문제는 클라우드 서비스 업체가 일관성 있는 방식으로 관련 정보를 공개하지 않는다는 것. 실제로 일부 수치는 의미있는 결정을 하기 어려울 정도로 혼란스럽다.     실제 서비스 중단 시간과 표시된 중단 시간 마이크로소프트 애저와 구글 클라우드 플랫폼(GCP)은 모두 전형적인 날짜와 시간 정보를 제공하지만, 영향을 받은 서비스와 지역의 개략적인 데이터만 제공한다. 문제는 이런 정보로는 전반적인 안정성을 알기 어렵다는 것. 예를 들어, 만약 애저 클라우드에 세 개 리전의 다섯 가지 서비스에 영향을 미친 1시간의 서비스 중단이 있었다면, 웹 사이트는 그저 1시간의 서비스 중단이라고 표시한다. 사실 총 15시간의 서비스 중단이라고 봐야 한다. 애저와 GCP, AWS 중에서는 애저가 상세한 정보를 가장 적게 제공한다. GCP는 서비스 수준의 상세 정보를 제공해 더 낫지만, 지역 정보는 잘 알려주지 않는 경향이 있다. 때로는 어떤 서비스를 사용할 수 없는지 명확하게 하지만, 그렇지 않을 때도 있다. AWS가 가장 세밀한 보고서를 제공하는데, 모든 지역 모든 서비스를 보여준다. 만약 장애가 발생해 세 가지 서비스에 영향을 미친다면, 세 가지 서비스 모두 이용...

가용성 SLA 장애 2019.05.14

네트워크 문제로 인한 데이터센터 가동 정지 증가 중

데이터센터 가동 정지를 유발하는 일반적인 원인 중 하나는 정전이다. 그러나 정전이 유일한 원인은 아니다. 기업 컴퓨팅 환경의 복잡성이 높아지면서 IT 시스템과 네트워크의 장애로 인해 데이터센터 가동이 멈추는 사례가 늘고 있는 것으로 나타났다.   업타임 인스티튜트(Uptime Institute)는 불시의 다운타임을 유발하는 요소를 파악하고자 공개적으로 보고된 가동 정지 사례를 연구해왔다. 지난 3년 동안 전통적인 미디어 또는 소셜 미디어에 보고된 162건의 가동 정지 사례에서 정보를 수집했는데, 이 기간 동안 가용 데이터의 양은 꾸준히 증가했다. 연구진이 데이터를 수집한 가동 정지 사례는 2016년 27건, 2017년 57건에 이어 2018년에는 78건으로 늘었다. 복원성 서비스와 데이터센터 구축 및 운영 자문, 인증 서비스를 제공하는 업타임 인스티튜트의 리서치 책임자 앤디 로렌스는 “뉴스에 보도되는 가동 정지 사례가 계속 증가하고 있다”고 말했다. 로렌스는 이번 연구 결과를 발표하면서 “업계의 기록을 보면 거의 매일 전 세계 곳곳에서 심각한 가동 정지가 발생한다”면서 “가동 정지 건수 자체가 급증한다고 단정할 수는 없지만, 다운타임에 대한 관심은 커지고 있다. 정지가 미치는 영향이 확대되고 있는 것은 분명해 보인다”고 말했다. 업타임 인스티튜트 연구에서 발견한 중대한 사실은 전체적인 장애에서 정전보다 네트워크와 IT 시스템의 문제가 원인으로 작용하는 경우가 더 많다는 것이다. 전원 시스템의 안정성이 과거에 비해 향상되면서 온프레미스 데이터센터의 전원 장애가 줄어든 덕분이다. 업타임 인스티튜트의 CTO 크리스 브라운은 지난 20년 동안 IT 업계는 전원 시스템의 일부에 오류 또는 장애가 발생하더라도 IT 자산 운영을 지속할 수 있게 해주는 시스템을 설계하는 데 주력해왔다면서 “이중 코드 IT 장비에 전원을 공급하는 2N 전원 분배 시스템이 나오면서 IT 시스템은 단일...

가용성 장애 서비스중단 2019.03.25

IDG 블로그 | 데이터센터가 여러 곳이라도 페이스북이 다운되는 이유

페이스북이 8시간 동안 서비스가 중단되며 인스타그램과 페이스북 메신저에도 영향을 미치는 동안 수성 역행이 두드러졌다. 심각한 피해를 본 사람은 없는 것으로 알려졌다. 일부는 다른 사람들과 오래간만에 오프라인 인터랙션의 시간을 가졌을지도 모른다.   페이스북은 DDoS 같은 외부 공격은 아니었으며, 늘 그렇듯 환경 설정 오류라고 밝혔다. 페이스북 대변인 트라비스 리드는 “어제, 우리는 서버의 환경 설정을 변경했는데, 여러 가지 문제를 유발했다. 결과적으로 많은 사람이 페이스북의 앱과 서비스에 액세스하는 데 어려움을 겪었다”라며, “문제를 해결했고, 시스템은 몇 시간 만에 복구되었다”고 밝혔다. 물론 불편에 대한 사과와 사용자의 인내에 감사 표시도 했다.  문제는 여분의 데이터센터를 미국과 전 세계에 보유하고 있는 회사가 이런 식으로 서비스가 중단될 수 있는가이다. 페이스북은 이런 사태를 방지하기 위해 미국에만 7곳의 리던던시 데이터센터를 두고 있는 것으로 알려져 있다. 명확하지는 않지만, 버그나 운영 문제의 경우, 리던던시 데이터센터가 별 도움이 되지 않는다. 실제로는 문제가 빠르게 확산되는 역할을 한다. 애널리스트 롭 엔델은 “리던던시는 완전한 시스템 장애와 같은 경우에는 도움이 된다. 하지만 복제 데이터센터이기 때문에 바이러스나 소프트웨어 버그에는 도움이 되지 않는다. 따라서 이번 경우에 리던던시 데이터센터는 아무런 역할을 할 수 없다”고 설명했다. 소프트웨어 버그라면 인스타그램이나 페이스북 메신저에는 영향을 미치지 않아야 한다. 하지만 엔델은 문제가 공유된 코드와 관련된 것으로 보고 있다. 장애가 난 것이 어떤 것이든 같은 코드나 파생 코드를 사용한다면, 모든 서비스에 걸쳐 복제되기 때문이다. 엔델은 “적어도 서비스에 대한 파이어월을 갖춰 이런 문제를 방지했어야 했다”고 지적했다.  editor@itworld.co.kr

페이스북 다운 서비스중단 2019.03.15

글로벌 칼럼 | 구글 플러스와 함께 '충성 사용자의 신뢰'도 잃은 구글

이 칼럼을 읽고 있는 사람은 열정적인 구글 사용자일 가능성이 꽤 높다. 해당 기업의 최신 제품에 관심을 갖고 항상 당시의 흥미로운 새 앱 또는 서비스를 사용해 보고 싶어하는 사람들 말이다. 그리고 자신이 그런 사람이라면 지금쯤 약간 의기소침하고 실망감이 들 가능성도 있다. 사실 당신을 비난하는 것은 아니다. 필자도 그렇게 느끼고 있다. 필자는 일반적인 "이런, 구글이 나를 감시하네!" 같은 걱정에 관해 이야기하는 것이 아니다. 구글 사용자라면 해당 기업의 비즈니스 모델과 이와 관련된 선택사항에 관해 잘 알고 있을 것이다. 필자는 구글이 고귀한 비전과 장대한 약속을 통해 가장 헌신적인 사용자들을 새로운 서비스로 유입시켜 이 사용자들이 새로운 서비스를 조사하여 삶에 통합하는데 투자하고 나면 생각을 바꾸고 이를 완전히 포기하는 패턴에 관해 이야기하는 것이다. 구글에 대해 잘 아는 사람이라면 모두 익숙한 이야기이며 이런 생각 자체는 새롭지 않지만 이런 트렌드가 최근 더욱 고조되고 있다. 생각해 보자. 올 가을 한 달 동안 구글은 4년 전 대대적으로 공개한 차세대 이메일 앱인 인박스(Inbox)를 포기했으며 사람들을 설득하기 위해 엄청난 에너지를 쏟아 부은 "구글의 미래" 소셜 계층인 구글 플러스(Google+)를 없애버렸다. 분명 구글의 기준으로는 둘 다 널리 보급되지 않은 서비스였다. 하지만 그것이 핵심은 아니다. 둘 다 구글의 가장 충성스럽고 열정적인 사용자, 즉 유용한 신제품에 대한 소문을 퍼뜨리고 (의도하지 않게) 해당 브랜드의 홍보대사로 활동한 사용자들이 좋아하는 서비스였다. 구글은 결국 이런 사람들이 자신의 삶과 긴밀히 연결된 제품을 포기하게 만들었으며 전략이 바뀌고 다른 기회가 찾아오자 조용히 움직였다. 구글은 구글 플러스나 인박스만 없앤 것이 아니라 가장 열정적인 사용자들의 신뢰를 잃었다. 인박스의 경우 구글의 자신감이 상당했다. 2014년 출시 당시 해당 앱은 "개발에 수 ...

서비스중단 구글플러스 구글 2018.10.22

데이터센터 전력 효율과 서비스 중단 비율이 같이 높아지는 이유

업타임 인스티튜트(Uptime Institute)의 조사에 따르면, 데이터센터의 전력 관리가 전례없이 좋아지고 있는 한편으로, 서비스 중단 사고 발생률도 같이 높아지고 있다. 그리고 둘 간에는 인과 관계가 있다. 글로벌 데이터센터 서베이(Global Data Center Survey) 보고서는 약 900명의 데이터센터 운영자와 IT 실무자로부터 설문 응답을 받았는데, 주로 대형 데이터센터 서비스 업체나 기업 데이터센터 소속이다. 이번 설문 조사에서 데이터센터의 전력 효율 기준인 PUE(Power Usage Effectiveness)는 1.58로 역대 최저치를 기록했다. 비교하자면, 2007년 평균 PUE는 2.5였고, 2011년에는 1.98로, 2013년에는 1.65로 떨어졌다. PUE는 데이터센터를 운영하고 냉방하는 데 드는 전력을 측정한다. PUE가 2라면, 데이터센터를 운영하는 데 드는 만큼의 전기가 냉각하는 데도 든다는 것을 의미한다. PUE 1.5라면 IT 시스템을 구동하는 1와트가 들 때마다, 0.5와트의 전기가 냉각에 든다. 따라서 PUE를 낮추는 것이 데이터센터 운영자에게는 적지 않은 압박이 된다. 하지만 업타임은 또한 부정적인 경향도 발견했다. 인프라 중단과 심각한 서비스 악화 사고도 31%로, 지난 해 25%보다 6%나 증가했다. 지난 3년 간 응답자의 절반 이상이 자체 사이트 또는 서비스 업체 사이트에서 서비스 중단 사태를 경험한 것이다. 여기서 한 가지 의문을 제기할 수 있다. 낮은 PUE가 서비스 중단을 유발하는가? 운영자가 PUE에 집착하는 바람에 더 큰 사고가 발생한 것일까? 업타임 인스티튜트의 리서치 담당 부사장 론다 아시에르토의 대답은 ‘아니오’이다. 아시에르토는 “단정할 수 없다”며, “일부 미디어는 두 요소를 연결하기도 하지만, 상관관계가 있다고 해서 인과관계가 있는 것은 아니다. 분명히 연결 가능성이 있고 효율성과 관련된 다른 조사결...

하이브리드 장애 PUE 2018.08.23

IDG 블로그 | 테러나 핵 공격, 해킹으로 클라우드가 붕괴할 가능성

멸망의 징조가 나타났다. 미국의 주요 클라우드 서비스 업체가 3~6일 정도 중단되는 사이버 문제가 발생하면, 고개 기업은 약 53~190억 달러의 비즈니스 손실을 볼 수 있으며, 이중 보험으로 보상되는 범위는 11~35억 달러뿐이라고 보험회사 로이드가 밝혔다. 여기서 사이버 문제란 해킹이나 번개, 데이터센터의 폭발, 사람의 실수 등을 포함한다. 필자는 로이드가 제시한 수치를 의심하지 않는다. 하지만 만약 하나 이상의 주요 클라우드 서비스가 어떤 이유로 중단되면, 재고 시스템에 로그인하지 못하는 것 이상의 심각한 문제를 겪게 될 것이다. 그렇지만 그럴 가능성이 너무 작다. 퍼블릭 클라우드 서비스 업체는 상당한 복원력을 갖추고 있다. 과거에 지역적인 서비스 중단 사태가 있긴 했지만, 보통은 사람의 실수에 의한 것이었다. 사이버 공격으로 퍼블릭 클라우드를 중단시키는 것은 500Kg짜리 망치를 들고 두더지 잡기 게임을 하는 것과 마찬가지다. 퍼블릭 클라우드 서비스 업체는 자사 클라우드 내에 여분의 시스템을 여럿 구축한다. 만약 데이터센터 한 곳을 중단시켰다고 해도, 더 나아가 한 지역을 중단시켰다고 해도, 모든 지역의 모든 데이터센터를 파괴할 수는 없다. 한 곳이 죽으면, 다른 곳이 임무를 넘겨 받는다. 물론 핵 공격 같은 극단적인 경우로 클라우드 서비스 업체 대부분이 날아가는 경우를 생각할 수도 있다. 하지만 이런 경우에도 과연 모든 퍼블릭 클라우드가 오프라인 상태가 될지 의심스럽다. TCP/IP는 미 국방부가 개발한 것으로, 핵 공격으로 유실된 네트워크 구간을 우회하는 경로는 찾아내도록 만들어진 것이다. 그리고 솔직히 말해 핵 공격이 일어났는데, 과연 클라우드 서비스를 얼마나 신경 쓰겠는가? 가능성은 낮은 지구 종말 시나리오에서도 클라우드 컴퓨팅이 좋은 점이 하나 있는데, 클라우드 서비스 업체는 예전의 기업 데이터센터처럼 무방비 상태로 당하지 않는다는 것이다. 클라우드 서비스 업체는 지역적으로 넓게 분산되어 있고, 여분의 시...

테러 서비스중단 퍼블릭클라우드 2018.01.30

글로벌 칼럼 | 아마존이 보여준 “한 바구니에 담긴 달걀”의 위험성

최근 아마존의 미 동부 제1 데이터센터에 장애가 발생해 해당 센터에서 지원하던 아마존 S3 클라우드 서비스가 중단되는 사고가 발생했다. 그리고 그 결과는 실로 참담했다. 이 사고로 인해 쿼라(Quora), 비즈니스 인사이더(Business Insider), 넷플릭스(Netflix), 레딧(Reddit), 슬랙(Slack) 등 거대 사이트들의 운영이 전면 혹은 일부 중단되는 피해를 입었다. 시밀러테크(SimilerTech)의 조사에 따르면, 이번 장애로 영향을 받은 사이트는 총 12만 4,000곳에 이르는 것으로 확인됐다. 대학에 다니는 필자의 한 지인으로부터도 “학교의 IT 기능이 마비돼 학생들이 과제에 접근하지 못하는 등 불편을 입었다”는 피해 사례가 전해졌다. 한 클라우드 컨설턴트는 아마존 웹 서비스(AWS, Amazon Web Services)를 이용하던 고객들이 애저(Azure)로의 전환을 요구해오는 통에 전화기에 불이 날 지경이었다고 하소연하기도 했다. 이번 사태는 우리에게 중요한 교훈을 전해줬다. 그간 우리는, 클라우드를 잘못 이용해왔다. 이 수백만 달러의 피해를 불러온 사고의 원인은, 놀랍게도 하나의 타이핑 오류에서 비롯된 것이었다. AWS 측의 보고 자료를 인용해본다. “아마존 S3(Simple Storage Service) 팀은 S3 청구 시스템 처리 지연을 야기하는 문제에 대한 디버깅 작업을 진행 중이었다. 9:37 AM(태평양 표준시) 기준, 공인 S3 팀원 한 명이 기존 플레이북을 이용해 S3 청구 프로세스에 이용되는 S3 서브시스템 가운데 하나와 연결된 소수의 서버들을 제거하는 명령을 실행했다. 이 과정에서 명령 1 건이 잘못 입력됐고, 그로 인해 계획한 것보다 많은 수의 서버가 제거됐다. 오류로 인해 제거된 서버는 본래 작업 대상이 아닌 다른 두 S3 서브시스템을 지원하는 서버들로, 이로 인해 지역 내 모든 S3 객체의 메타데이터와 위치 정보를 총괄하는 인덱스 서브시스템에 손상이 가...

장애 서비스중단 AWS 2017.03.08

AWS, “장애의 원인은 파라미터 입력 실수” 원인과 재발 방지책 공개

아마존 웹 서비스가 이번 주 초 여러 곳의 대형 웹 사이트와 앱에 영향을 미친 서비스 장애는 사람의 실수 때문에 발생한 것이라고 밝혔다. 지난 화요일 발생한 장애로 넷플릭스와 레딧, AP통신 등의 웹 사이트가 여러 시간 동안 정상적으로 운영되지 못했다. AWS는 온라인 사과문을 통해 “아마존 S3의 기록적인 가용성에 자부심을 가지고 있고, 이 서비스가 우리의 고객과 고객의 애플리케이션, 사용자, 비즈니스에 얼마나 중요한지도 알고 있다”며, “이번 사고로부터 교훈을 얻기 위해 모든 것을 할 것이며, 나아가 이를 가용성을 높이는 데 사용할 것”이라고 강조했다. 지난 28일 AWS는 자사의 서비스 헬스 대시보드를 통해 미국 북부 버지니아 지역에 있는 데이터센터의 S3 서비스에 문제가 생겼다고 보고했다. 이 문제는 심지어 AWS 대시보드에도 영향을 미쳐 현지 시각 오후 5시까지 해결되지 않았다. 아마존에 따르면, 공인된 S3 엔지니어가 S3 결제 프로세스가 사용하는 S3 서브시스템 중 하나를 위해 몇 대의 서버를 삭제하는 명령어를 실행했다. 당시 결제 프로세스가 기대보다 느리게 동작하는 문제를 해결하기 위한 조치였다. 여기서 명령어의 파라미터 중 하나가 잘못 입력됐고, 이 때문에 핵심 S3 서브시스템 중 하나인 인덱스 서브시스템과 배치 서브시스템을 지원하는 다수의 서버가 정지되면서 문제가 발생했다. 예기치 않게 정지된 인덱스 서브시스템은 모든 S3 객체의 메타데이터와 위치 정보를 관리하며, 배치 서브시스템은 새로운 스토리지의 할당을 관리하고 인덱스 서브시스템이 정확하게 동작하도록 요청하는 역할을 한다. 이들 서브시스템은 당연히 장애를 견딜 수 있도록 구축되었지만, 다수의 서버가 정지되면서 서비스를 새로 시작해야만 했다. ZK 리서치의 애널리스트 제우스 케라발라는 사람의 실수로 인해 이런 대형 사고가 발생한 것이 그리 놀라운 일은 아니라고 말했다. 케라발라는 “조사에 따르면 IT 서...

S3 복구 장애 2017.03.03

IDG 블로그 | 2014년 감사해야 할 클라우드의 실제 성과

클라우드 컴퓨팅의 고속 성장이 계속되고 있다. 시스템을 구현하고 애플리케이션을 마이그레이션하고 인프라를 클라우드로 이전하는 과정이 대부분의 사람들이 예상하는 것보다 훨씬 매끄럽게 이루어지고 있는 것으로 보인다. 필자는 이 모든 것에 감사하는 한편, 특히 올해 이루어진 네 가지 발전에 고마움을 전하고 싶다. 우선은 퍼블릭 클라우드 기반의 시스템들이 장애를 최소화하고 데이터 유출 사고를 피하면서 한 해를 잘 보낸 것에 감사하고 싶다. 최근 마이크로소프트 애저에서 서비스 중단 사고가 발생하고, 몇몇 작은 사고가 일어나긴 했지만, 퍼블릭 클라우드 서비스들은 시스템의 정상 상태로 가동하는 데 있어서 기업 내부 시스템보다 더 더 잘 해 냈다. 많은 비평가들이 대규모 클라우드 장애가 발생하면 수많은 기업이 공황 상태에 빠질 것이라고 예측했다. 하지만 그런 일은 아직 일어나지 않았다. 물론 대부분의 애널리스트들은 현재 전체 워크로드 중 겨우 1%만이 클라우드에서 구동되고 있기 때문에 서비스 장애의 파급 효과가 적다고 평가한다. 두 번째로는 퍼블릭 클라우드 서비스에서 대규모 데이터 침해 사고가 발생하지 않은 점이다. 최근 심각한 데이터 침해 사고를 겪은 타깃이나 홈디포, 미 우정국 등은 인프라에 클라우드 환경이 전혀 없었다. 그보다는 전통적인 시스템과 전통적인 보안 접근 방안이 문제를 유발했다. 비록 완벽하지는 않지만, 클라우드 보안은 아직까지 사람들을 실망시키지 않고 있다. 하지만 주의해야 할 것도 있다. NSA의 유령이 클라우드의 성장에 큰 영향을 미치지는 못했지만, 클라우드에 있는 데이터는 정부가 노리는 데이터라는 점을 유의해야 한다. 세 번째로 고마운 것은 아마존 웹 서비스이다. AWS는 퍼블릭 클라우드의 기준을 세웠으며, 다른 퍼블릭 클라우드 서비스 업체들이 성장하는 동인을 제공했다. AWS는 퍼블릭 IaaS 시장을 선도하고 있으며, 만약 AWS가 한걸음 먼저 나가지 않았다면, 과연 다른 퍼블릭 클라우드 서비스 업체들이 그렇게 많은 돈...

서비스중단 퍼블릭클라우드 iaas 2014.12.02

MS, “아웃룩과 핫메일 서비스 장애는 과열된 서버가 원인”

아웃룩닷컴과 핫메일 사용자들을 무려 16시간이나 이메일에 접속하지 못하도록 했던 서비스 중단 사태는 데이터센터의 과열된 서버들 때문이었다고 마이크로소프트가 밝혔다.   태평양 표준시를 기준으로 지난 3월 12일 오후 1시 30분에 시작된 서비스 중단 사태는 Hotmail.com과 outlook.com 그리고 일부 스카이드라이브 사용자에게 영향을 미쳤다. 문제를 바로 잡는 데는 무려 16시간이 걸려 3월 14일 오전 5시 40분에 서비스가 정상화됐다. 하지만 이 시점에서는 마이크로소프트가 이에 대한 설명을 내놓지 않았다.   마이크로소프트의 부사장 아서 디 한은 수요일 늦게 서비스 장애가 발생했고, 시스템의 핵심 요소에 대한 펌웨어 업데이트를 했다고 블로그 포스트를 통해 밝혔다 아서 한의 설명에 따르면 이번 업데이트는 이전에 이미 성공적으로 적용된 것이었는데, 이번에 특정 인스턴스에서 예기치 못한 장애를 일으켰고, 이 장애가 데이터센터의 기본적인 온도를 급상승하게 만들었다는 것. 온도가 너무 급하게 올라 보호 조처를 취하기도 전에 데이터센터의 서버들에 영향을 미친 것이다.   과열로 인해 영향을 받은 서버에 저장된 메일함에 사용자들이 액세스하지 못하게 됐으며, 대기서버로 시스템을 전환하는 것도 불가능해 져서 결국 소프트웨어는 물론 사람의 직접적인 개입이 필요했다는 것이 아서 한의 설명이다.   아서 한은 “이처럼 사람의 직접적인 개입이 필요한 경우는 우리 서비스에서는 일반적인 것이 아니기 때문에 복구에 상당한 시간이 걸렸다”라고 덧붙였다.   마이크로소프트는 서비스 중단 사태에 대해 사과하고, 재발 방지를 약속했지만, 얼마나 많은 사용자가 영향을 받았는지는 밝히지 않았다.   한편 마이크로소프트는 향후 다시 서비스 중단 사태가 발생하면 https://status.live.com에서 특정 서비스에 대한 정...

과열 핫메일 장애 2013.03.15

비즈니스 크리티컬 클라우드를 관리하기 위한 7대 지침

성공적인 클라우드를 관리하기 위하여는 지식과 기술, 전략이 필요합니다. 클라우드를 운영하는 회사가 늘어나면서 중대한 서비스 중단 문제가 나타나기 시작했습니다. 본 백서에서는 바람직한 클라우드 활용을 위한 일련의 지침을 제시합니다.   주요내용 클라우드의 실제적인 혜택 그리고 과제 클라우드 위험에 대한 이해 성공적인 클라우드 관리를 위한 7대 지침  - 실제적인 혜택을 취하고 위험을 예방하는 방법

HP 서비스중단 클라우드 2012.11.15

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.