IT 관리 / 가상화ㆍ컨테이너 / 클라우드

관찰가능성이 시스템 모니터링의 미래인 이유

Ben Evans, Charles Humble | InfoWorld 2020.08.14
  • 이벤트(Event) : 시간 스탬프가 기록된 변경 불가능한 일정 시간 동안의 이벤트 레코드. 일반적으로 애플리케이션에서 코드의 이벤트에 대한 응답으로 발생한다. 
 
  • 로그(Log) : 가장 기초적인 형태의 로그는 특정 코드 블록이 실행될 때 시스템이 생성하는 단순한 텍스트 라인이다. 일반 텍스트일 수도 있고 구조적이거나(예를 들어 JSON으로 생성) 바이너리일 수 있다(예를 들어 복제 및 특정 시점 복구에 사용되는 MySQL binlog). 로그는 코드 실행을 사후에 확인하고 조사할 때 그 가치가 입증된다. 실제로 로그는 데이터베이스, 캐시, 로드 밸런서, 또는 프로세스 내 계측에 우호적이지 않은 오래된 전용 시스템의 문제를 해결할 때 대단히 유용하다. 로그 데이터는 이벤트와 비슷하게 개별적이지만 보통 이벤트보다 더 세밀하다. 
 
  • 트레이스(Trace) : 트레이스는 단일 트랜잭션 또는 요청이 마이크로서비스 시스템을 “홉(hop)”하는 과정에서의 활동을 보여준다. 트레이스는 요청이 시스템을 이동하는 경로, 이 경로 상에 있는 구성요소의 지연, 그리고 병목 현상이나 장애를 유발하는 구성요소를 보여줘야 한다. 

이 네 가지 유형의 텔레메트리 데이터 중에서 일반적으로 인프라에 소급 적용하기가 가장 어려운 것으로 간주되는 데이터는 트레이스다. 트레이스가 제대로 된 효과를 발휘하려면 시스템의 모든 구성요소를 수정해서 트레이스 정보를 전파하도록 해야 하기 때문이다. 이와 관련해서는 마이크로서비스 아키텍처에서 서비스 메시 패턴이 도움이 될 수 있다. 

서비스 메시를 사용하더라도 개별 서비스의 수정 필요성이 완전히 사라지진 않지만, 필요한 작업의 양이 대폭 감소된다. 리프트(Lyft)는 엔보이(Envoy)를 통해 서비스 메시 패턴을 도입, 모든 서비스에 대한 분산 트레이스 지원을 달성한 것으로 잘 알려졌다. 리프트의 경우 클라이언트 계층에서 필요했던 변화는 특정 헤더를 전달하도록 하는 것이 전부였다. 또한 리프트는 모든 홉에 대한 일관적인 로깅과 일관적인 통계도 확보했다. 

분산 트레이스는 현재 클라우드 네이티브 컴퓨팅 재단(CNCF)의 샌드박스 프로젝트이며 폭넓게 지원되는 오픈 텔레메트리(Open Telemetry) 이니셔티브의 주요 구성요소이도 하다. 오픈 텔레메트리의 궁극적인 목표는 분산 트레이스 및 기타 관찰가능성을 지원하는 텔레메트리에 대한 지원이 클라우드 네이티브 소프트웨어에 내장되도록 하는 것이다. 
 

관찰가능성 대 모니터링 

관찰가능성과 모니터링, 두 가지 접근 방식은 서로 다른 목표를 추구하므로 상호 배타적이라는 생각은 잘못된 생각이다. 또한 관찰가능성은 소프트웨어 업계에서 비교적 새로운 용어지만 기본 개념은 그렇지 않다. 신디 스리드하란은 이에 대해 다음과 같이 정리했다.
 
  • 관찰가능성은 모니터링의 대체재가 아니며 모니터링의 필요성을 배제하지도 않는다. 두 가지는 상호보완적이다. 관찰가능성이라는 용어는 참신하게 들리겠지만 새로운 개념은 아니다. 이벤트, 트레이스, 예외 추적은 모두 로그의 파생물이며, 이러한 툴 중 어느 하나라도 사용해왔다면 이미 어떤 형태로든 관찰가능성을 구현해온 것이다. 새로운 툴과 새로운 벤더마다 이 용어에 대한 정의와 이해는 다를 수 있지만 기본적으로 관찰가능성은 모니터링이 포착하지 않는 부분을 포착한다. 
 
  • 모니터링은 전체적인 시스템 상태를 보고하는 데 가장 적합하다. “모든 것을 모니터링”하려는 것은 안티 패턴임이 입증됐다. 모니터링은 시계열 기반 계측, 알려진 실패 모드, 블랙박스 테스트에서 파생되는 핵심적인 비즈니스 및 시스템 메트릭으로 제한하는 것이 최선이다. 반면 관찰가능성은 시스템의 동작에 대한 매우 세분화된 통찰력을 풍부한 맥락 정보와 함께 제공하는 데 목표를 두며 디버깅에 가장 적합하다. 시스템에서 발생할 수 있는 모든 실패 모드를 예측하거나 시스템이 오작동할 수 있는 가능한 모든 방법을 예측하기란 불가능하므로 추측이 아닌 증거로 뒷받침되는 디버그가 가능한 시스템을 구축해야 한다. 

관찰가능성을 위해서는 팀에서 애플리케이션을 감독하기 위한 더 정교한 접근 방식을 채택해야 하지만, 시야와 문제 해결 측면에서 매우 가치 있는 이점을 제공한다. “커다란 데이터 전광판”에서 메트릭을 모니터링하는 것보다 근본적으로 더 나은 접근 방법이다. 관찰가능성 기법은 이를 지원하도록 새 시스템을 처음부터 설계할 때 더욱 효과적이다. 성공적인 결과를 얻기 위해서는 모두가 한 곳에서 모든 텔레메트리 데이터를 볼 수 있는 하나의 플랫폼으로 통합해야 한다. 이렇게 되면 소프트웨어 개발 팀은 의미를 끌어내는 데 필요한 컨텍스트를 신속하게 얻고 적절한 조치를 취할 수 있다. 

관찰가능성은 본격적인 클라우드 네이티브 기업의 필수 요건이다. 이러한 기업은 대체로 마이크로서비스 아키텍처를 사용하며, 그 결과 규모와 복잡성이 더 크다. 관찰가능성은 클라우드 전환의 성숙도나 기교적 수준에 관계없이 전체 업계 측면에서도 막대한 혜택을 제공한다. 

*Ben Evans는 뉴 렐릭(New Relic)의 대표 엔지니어 겸 JVM 기술 아키텍트이고, Charles Humble은 뉴렐릭의 원격 엔지니어링팀 책임자이다. editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.