카오스 엔지니어링은 시스템 견고성에 대한 통찰력을 주지만, 기업은 리소스 요구 사항, 그로 인해 발생하는 위험, 더 광범위한 전략적 목표와의 연계성 등을 면밀히 검토해야 한다. 이러한 요소를 이해하는 것은 카오스 엔지니어링을 기업의 기술 전략에서 중점적인 영역으로 삼을지 아니면 지원 도구로 삼을지 결정하는 데 매우 중요하다. 기업은 기술 진화를 얼마나 면밀히 따라갈 것인지, 기술 전문 업체가 솔루션을 출시할 때까지 얼마나 기다려야 할지를 결정해야 한다.
실수 때문에 치러야 하는 높은 비용
클라우드 컴퓨팅 보안 업체 클라우드플레어(Cloudflare)는 최근 사이버 보안 위협에 대한 분기별 분석에서 2023년 3분기에 분산 서비스 거부(DDoS) 공격이 전 분기 대비 65% 증가했다고 보고했다. 클라우드플레어에 따르면 2024년 2분기에는 400만 건의 DDoS 공격이 발생했다.클라우드 기반 소프트웨어를 사용하는 기업은 DDoS 및 기타 고의적인 공격 외에도 서비스 중단에 취약하다. 대부분 클라우드 운영과 관련된 일반적인 문제지만, 일부는 물리적 서버 장애나 사이버 공격으로 인한 연결 문제로 인해 발생하기도 한다.
2004년 7월 19일, 크라우드 스트라이크(CrowdStrike)의 팔콘 센서가 마이크로소프트 애저 클라우드 컴퓨팅 시스템에 연결된 윈도우 호스트에 충돌을 일으켰다. 이로 인해 전 세계적으로 IT 서비스 중단 사태가 발생한 것을 기억하는 사람도 많을 것이다. 사이버 관련 공격을 방지하도록 설계된 팰콘(Falcon) 센서는 사이버 공격이 아니라 업데이트의 기술적 문제로 인해 손상된 것이었다.
이 사건은 여러 가지 이유로 경각심을 불러일으켰다:
대부분의 기업이 취약성을 깨닫기 시작했다. 어리석은 실수로 인해 생산성이 중단될 수 있다는 사실을 자각한 것이다.
사건의 총 비용은 대부분의 기업이 예상했던 것보다 훨씬 높았다. 또한 홍보 및 고객 관계 같은 ‘소프트’한 문제에도 예상보다 더 큰 영향을 미쳤다.
분명한 교훈은 가장 큰 위험은 기술이 아니라 사람에서 비롯된다는 것이다.
카오스 엔지니어링의 장점
한 대형 이커머스 기업이 쇼핑 성수기에 클라우드 시스템 복원력을 점검하기 위해 카오스 엔지니어링을 도입했다고 가정해 보자. 이 업체는 카오스 엔지니어링 도구를 사용하여 블랙 프라이데이 상황을 모방한 트래픽 부하 증가를 시뮬레이션한다. 또한 의도적으로 지연 시간과 무작위 서버 종료를 도입하여 스트레스를 받는 상황에서 시스템이 어떻게 반응하는지 관찰한다.기업은 테스트를 통해 기존 테스트에서는 발견할 수 있었던 데이터베이스 아키텍처의 병목 현상을 발견했다. 실시간 메트릭을 통해 서버 리소스 자동 확장 및 데이터베이스 쿼리 최적화 같은 적응형 전략을 신속하게 구현한다. 이커머스 플랫폼은 카오스 실험을 지속적으로 반복함으로써 시뮬레이션된 압력을 견딜 뿐만 아니라 예기치 않은 트래픽 급증에 자동으로 조정하는 능력을 향상시킨다. 이를 통해 중요한 판매 기간 동안 원활한 고객 경험을 보장하거나 보장해야 한다. 이러한 사전 예방적 접근 방식은 잠재적인 혼란을 인프라 복원력을 강화할 수 있는 기회로 전환한다. 최소한 개념상으로는 이렇다.
카오스 엔지니어링의 단점
이러한 장점에도 불구하고 카오스 엔지니어링은 기업에게 상당한 도전과 의문을 던진다.리소스 집약성 : 카오스 엔지니어링을 구현하려면 시나리오를 효과적으로 시뮬레이션하고 분석하기 위해 적절한 도구, 숙련된 인력, 시간에 상당한 투자가 필요하다. 예산 부담을 가중시키고 핵심 비즈니스 목표가 산만해질 수 있다.
운영 위험 : 의도적으로 결함을 도입하면 내재적인 위험이 발생한다다. 서비스를 중단시키고 성능에 영향을 미치며 고객 불만이나 재정적 손실을 초래할 수 있는 원치 않는 부작용을 초래할 수 있으므로 기업은 주의를 기울여야 한다.
초점 이동 : 카오스 엔지니어링은 보다 전략적 이니셔티브에 집중을 방해할 수 있다. 기업은 종종 성장에 직접적으로 기여하는 간단한 ROI 기반 프로젝트에 우선순위를 두는 경우가 많다. 카오스 엔지니어링에 광범위하게 참여하면 즉각적인 이점을 보여주는 혁신이나 운영 개선을 추구하는 데 방해가 될 수 있다.
복잡성 관리 : 기업이 성장함에 따라 시스템은 더욱 복잡해진다. 카오스 엔지니어링에는 시스템 내 상호 의존성에 대한 깊은 이해가 필요하다. 복잡성 관리는 것은 어려운 일이며 기업이 카오스 원칙을 효과적으로 적용하는 데 방해가 될 수 있다.
균형 잡힌 접근 방식 필요해
이 기사는 카오스 엔지니어링을 영업하려는 기사가 아니다. 카오스 엔지니어링을 또 다른 토끼 잡기로 여기는 기업 IT의 시각에서 바라본 것이다.카오스 엔지니어링은 시스템 취약성에 대한 선제적 방어 메커니즘을 제공하지만, 기업은 전략적 목표와 카오스 엔지니어링의 위험을 비교해야 한다. 특히 가동 시간과 안정성이 중요한 분야에서는 카오스 엔지니어링에 집중적으로 투자하는 것이 정당화될 수 있다. 그러나 다른 분야에서는 사이버 보안 표준 개선, 인프라 업데이트, 인재 확보에 집중하는 것이 더 나을 수도 있다.
클라우드 업체는 무엇을 제공하는가? 많은 기업이 퍼블릭 클라우드를 도입하는 이유는 안정성 엔지니어링 같은 일부 업무를 공급업체에 맡기고 싶기 때문이다. 때로는 공유 책임 모델이 테넌트보다는 클라우드 업체의 욕구에 지나치게 초점을 맞추는 경우도 있다. 클라우드 업체가 한 단계 더 발전해야 할 수도 있다.
궁극적으로 기업은 카오스 엔지니어링이 자사의 광범위한 IT 전략에 어떻게 부합하는지 고려해야 한다. 카오스 엔지니어링을 전면적으로 도입하는 대신 목표에 부합하는 요소를 통합함으로써 기업은 핵심 미션에서 벗어나지 않고도 인사이트를 활용할 수 있다. 모든 혁신과 마찬가지로 핵심은 신중한 적용이다.
editor@itworld.co.kr