클라우드

글로벌 칼럼 | 클라우드 장애 대부분은 클라우드와 상관없다

David Linthicum | InfoWorld 2024.01.25
미디어에서 클라우드 장애를 다룬 기사를 볼 때마다 깜짝 놀라곤 한다. '클라우드 서비스 장애(The Cloud Fails to Deliver)' 같은 기사인데, 클릭해 자세히 읽어 보면 제목에 문제가 있음을 알 수 있다. 사실 클라우드 기술은 '애초에 약속했던' 것을 항상 제공하고 있다. 오히려 클라우드 장애의 더 근본적인 이유는 사람의 실수다. 클라우드 기술은 계속 발전하고 진화하는 반면 사람의 실수 문제는 변함없이 반복되고 있다.
 
ⓒ Getty Image Bank

실제로 대부분의 기술 장애에는 일반적인 패턴이 있다. 잘못된 이해, 리더십의 부족 그리고 많은 경우 충분하지 않은 지식과 경험에서 시작된다. 클라우드 기반의 대규모 생성형 AI 프로젝트가 시작되는 지금, 어떻게 하면 더 안정적으로 인프라를 운영할지 고민이 필요한 시점이다.
 

장애가 발생하는 가장 큰 이유

일단 장애가 발생하는 이유에서 출발하자. 장애의 원인은 다양하지만 크게 보면 다음 4가지다.
 
  • 부적절한 아키텍처 : 적절한 계획과 클라우드 컴퓨팅에 대한 이해 없이 클라우드 전환을 시작하는 기업이 너무나 많다. 성능과 신뢰성 관련된 심각한 문제가 여기서 시작된다. 시스템을 클라우드에 거의 최적화하지 않아 적정 비용보다 5~10배 더 많은 돈을 쓰는 경우도 많다. 
  • 부실한 SLA : 기대했던 성능을 내지 못하는 이유가 무엇일까? 가장 큰 부분은 기업과 클라우드 서비스 업체 간의 SLA 계약이 명확하지 않기 때문이다. 필자는 약간의 조정을 통해 모두가 만족할 수 있음에도 배포 후 문제가 생겨 프로젝트 자체를 취소해 버린 사례도 봤다. 물론 SLA에는 모호한 부분이 있을 수 있다. 하지만 클라우드 서비스 업체가 약속한 요건을 지키지 못하는 경우는 거의 없다. 오히려 계약서에 클라우드 사용자가 원하는 것과 클라우드 서비스 업체가 제공하는 것을 잘 조율해 반영하지 않는 사례가 더 많다. 대부분 클라우드 사용자가 클라우드를 도입하기 전에 계약 사항에 대해 충분히 주의를 기울지 않기 때문이다.
  • 클라우드 리소스와 비용 초과에 대한 잘못된 관리 : 리소스를 제대로 관리하지 않으면 비용 초과 혹은 성능 병목으로 이어질 수 있다. 그래놓고 클라우드의 한계라고 주장하는 경우도 있다. 이는 오늘날 핀옵스(finops)가 부상한 이유이기도 하다. 일단 문제가 발생해 실제 원인을 추적해 보면, 결국 클라우드 사용자가 가격 대비 기대했던 것과, 제대로 리소스를 관리되지 않았을 때 실제로 제공되는 것 사이의 차이 때문으로 밝혀지는 경우가 많다.
  • 부적절한 보안과 컴플라이언스 절차와 지원 기술 : 보통 사람들은 클라우드 서비스 업체가 모든 보안 관련 사항을 처리해야 한다고 생각한다. 하지만 클라우드 기본 개념은 '공유 책임 모델(shared responsibility model)'이다. 클라우드 속 애플리케이션과 데이터에 대한 보안 책임은 클라우드 사용자의 몫이다. 복잡한 IAM(identity and access management)에 대한 이해와 암호화, 모니터링 전략 같은 것이 모두 여기에 포함된다. 많은 경우 기업은 이런 문제를 처리할 수 있는 직원을 채용하지 않고 클라우드 서비스 업체가 잘 해주기만을 기대한다. 이런 상황이 결국 침해 사고 뉴스로 이어지는 것이다.
 

상황을 개선하는 방법

필자는 클라우드 컴퓨팅 기술에 결함이 없다고 이야기하려는 것이 아니다. 하지만 기존의 장애 패턴을 보면, 사람이 '취약한 고리' 역할을 한 경우가 훨씬 많았다. 이런 잘못된 의사결정은 오해와 경험 부족, 무엇보다 숙련된 직원의 부족에서 비롯된다.

인재의 부족은 결과적으로 현재 클라우드 컴퓨팅 시장에서 나타나는 2가지 흐름의 원인이 됐다. 첫째, 클라우드 기술이 점점 더 복잡해지고 있다. 이 문제를 풀기 위해서는 상호운용성을 높이고 전환 가능한 영역을 더 많이 만들어야 한다. 둘째, 검증된 클라우드 컴퓨팅 아키텍트, 보안 엔지니어, 데이터베이스 엔지니어의 수가 점점 더 수요에 맞추지 못하고 있다. 기업이 인력 부족 때문에 자격을 갖추지 못한, 즉 어이없는 실수를 할 수 있는 직원을 채용하면 몇달 후 혹은 몇 년후 문제가 나타나게 된다. 대부분은 잘 작동하지만, 약한 부분은 나중에 결국 막대한 금액의 청구서 혹은 데이터 유출 사고로 외부에 드러난다.

이 2가지가 기술 이슈가 아니라 사람의 문제라는 점을 고려했을 때, 해법 역시 사람에 초점을 맞춰야 한다. 이런 이야기가 불편한 이들이 많겠지만 사실이 그렇다. 전략적으로 사람을 교육하고 채용하는 것은 물론 클라우드를 포함해 IT를 어떻게 활용할 지 전략을 마련할 때 신뢰하고 의지할 수 있는 사람을 세심하게 고민해야 한다.

이런 작업을 위해서는 기업이 선제적으로 움직여야 하고 기꺼이 비용을 투자할 의지가 있어야 한다. IT를 단순히 비용을 여기고 망설여서는 안된다. 이 비용을 조금 아끼려고 하다가는 결국 아낀 금액의 1만 배 비용을 써야 할 수 있다. 실수 혹은 사고를 바로 잡는 비용에, 계속 누적되는 기술적 부채 비용을 합치면 그렇다.

가장 시급한 것은 기업의 최고 경영진이 상황을 개선하는 작업의 중요성을 인식하는 것이다. 여기서 살펴본 문제 대부분은 기업이 IT 리더십을 중요하게 생각하지 않을 때 발생한다. 인재를 채용하고 근속을 유하는 데 충분한 예산을 할당하지 않는 전술적인 실수를 바로 잡는 것도 의미가 있지만, 기업의 모든 문제와 해법이 그렇듯 결국 최고 경영진의 판단에서 출발해야 한다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.