2018.11.26

클라우드 관리의 정석, Cloud Z Monitoring

BrandPost Sponsored by SK&IBM
SK | SK
ⓒGetty Image Bank

인프라와 플랫폼 관리자의 중요 일상 하나인 모니터링, 클라우드 환경의 모니터링은 어떻게 다를까? 일단, 체계가 잘 잡혀 있는 사내 환경 모니터링과 비슷한 구조로접근할 없다. 클라우드는 구조도 다를 아니라 일단 규모가 크기 때문이다. 인프라와 플랫폼 데이터 수집 접점도 많다.

상용 솔루션 가지를 조합하면 되는 사내 환경과 달리, 클라우드에서 수집한 데이터를 변환하고 처리하는 과정은 더 복잡하다. 클라우드 관리자는 클라우드 인프라와 플랫폼은 물론, 빅 데이터와 일라스틱서치 등 데이터 처리에도 밝아야 한다. 대시보드와 경보 생성 및 관리자 공지 시스템도 만들어야 한다. 클라우드 사용 범위를 넓혀 가면서 기업이 겪는 모니터링의 어려움을 해결하기 위해 매니지드 서비스 수준의 편리한 관제 옵션을 제공하는 업체가 늘고 있는 이유다.

클라우드 스케일 아키텍처
클라우드 모니터링은 간단하게 다양한 데이터 소스에서 자동으로 데이터를 수집하고, 이를 변환하고 저장한 다음 관리자가 직관적으로 현재 상황을 파악할 있도록 데이터를 시각화하는 것이라고 정의할 수 있다. 이를 수집, 변환, 저장, 시각화, 관리로 절차를 구분하고 단계에 필요한 요소 기술과 고려 사항은 대략 다음 그림과 같이 표현할 있다. 클라우드 스케일이란 말이 실감날 정도로 모니터링 과정이 복잡하고 사용하는 기술도 다양하다.
 
ⓒSK

예시로 아키텍처는 Cloud Z Monitoring 서비스다. 아키텍처는 클라우드 스케일의 모니터링의 범위가 얼마나 넓은지를 보여 준다.

작게는 수십, 많게는 수백 가지의 기술과 솔루션이 이벤트를 생성할 때는 로그 정보 수집만도 간단하지 않다. 그리고 클라우드는 규모가 언제, 어떻게 확장/축소될지 모른다는 특징이 있다. 이런 탄력성을 반영해 에이전트 기반 또는 에이전트리스 방식으로 여러 모니터링 대상을 수용해야 한다.

Cloud Z, VM웨어, 클라우드파운드리(CloudFoundary), 쿠버네티스(Kubernetes) 다양한 인프라와 플랫폼은 기본적으로 지원해야 한다. 여기에 다양한 오픈 소스 기반 데이터 수집기(collects)를 적용 가능해야 클라우드 규모라 있다.

이런 수준의 모니터링 체계를 기업이 독자적으로 만들 수 있을까? 기업 내부 인력과 역량만으로 수많은 데이터 수집 포인트에서 실시간으로 들어오는 이벤트와 거대한 분량의 로그 정보를 처리할 엄두를 내기란 쉽지 않을 것이다.
 
ⓒSK

실시간 가시성 제공
정보는 왜 수집해야 할까? 성능 병목이나 장애가 발생할 때, 어느 구간에서 어떤 원인으로 문제가 발생했는지 파악해 특정 문제가 비즈니스 중단 같은 위기 치닫지 않게 하기 위해서다. 사내 환경만 놓고 모니터링을 해도 쏟아지는 이벤트와 로그 정보를 감당하지 못한다. 설계된 메트릭을 적용해도 봐야 것과 그냥 흘려 보낼 정보를 가려내기 힘들다. 사내 환경도 이렇게 힘든데 클라우드에서 어떻게 중요 경보(alert) 놓치지 않고 있을까? 이때 Cloud Z Monitoring 임계치와 상태 기반으로 경보를 생성해 관리자에게 다양한 채널을 통해 알려준다.

경보 생성 못지않게 중요한 것이 데이터 시각화다. 관제 업무는 기본적으로 전체 현황 정보를 한눈에 파악할 수 있어야 한다. Cloud Z Monitoring 경우 다양한 대시보드 템플릿을 제공한다. 기업의 요구와 입맛에 맞춰 운영 환경별 맞춤형 대시보드를 구성할 있다. 인프라, 플랫폼, 나아가 비즈니스 애플리케이션이나 서비스의 성능까지 확인하고, 시간의 흐름에 따른 현황 모니터링 정보를 다양한 패널로 시각화하는 한편, 필요한 정보를 간단하 쿼리할 수도 있다.
 
ⓒSK


이런 특징을 통해 특정 구간에 성능 병목이 발생해 사용자 경험이나 서비스 품질에 영향을 끼칠 경우에도 즉시 대응에 필요한 가시성을 확보할 있다.

한편, Cloud Z Monitoring오픈 플랫폼인 Grafana 대시보드를 기반으로 하는 매니지드 서비스이므로, 특정 기술 종속에 대한 우려도 적고, 프라이빗 클라우드와 퍼블릭 클라우드를 하나로 묶어 통합 관제 서비스를 받아야 할 때도 유리하다.

신속한 협업
Cloud Z Monitoring 같은 모니터링 서비스를 이용하는 가장 이유는 장애 대응이다. 기업마다 정해놓은 장애 등급에 따른 대응책이 다를 것이다. 1초의 지연이나 다운타임도 허용할 없는 대외 서비스의 경우, 장애 탐지부터 대응까지 매우 신속한 대응이 요구된다. 일반적인 업무 시스템에서도 장애 해결에 하염없이 시간을 허비할 수는 없다.

모니터링 서비스가 필요한 이유가 바로 여기에 있다. 경보를 받자마자 해당 원인을 찾고 분석해 가능한 빠른 대응을 하는 것이다. 이런 측면에서 모니터링 서비스에서의 협업 도구 역시 매우 중요한 요소다. 관제 요원이 경보를 보고 이상 징후를 파악했다면, 다음 해야 일은 분야별 관계자와 협의해 빨리 대응하는 것이다. 과정에서 실시간 협업은 매우 중요하다. Cloud Z Monitoring 경우 최신 도구와 노하우가 조화롭게 어우러져 있다. Cloud Z Monitoring은 SI 기업으로 쌓아온 20년 운영 프로세스 노하우를 반영한 매니지드 기반 SVC 기능으로 개발과 운영의 원활한 협업을 지원한다. 매니지드 SVC는 사전에 잘 정립된 절차를 따르며 Slack, OpsGenie 등의 원활한 소통을 위한 SaaS 서비스가 통합되어 있다. 이런 특징으로 인해 모니터링 중 발생하는 다양한 상황에 관한 정보가 알람 조건에 따라 여러 서비스 채널 관계자에게 원활하게 전달 및 공유된다. 
 
ⓒSK


클라우드 서비스를 소규모로 시작할 때는 모니터링의 중요성이 크게 두드러지지 않는다. 하지만 클라우드 사용량이 일정 규모 이상으로 커지면 모니터링은 안정적인 서비스 운영에 있어 가장 중요한 우선순위 높은 과제가 된다. 어떤 선택을 하건, 클라우드 스케일에서 성능과 장애를 모니터링할 있어야 한다는 기준을 따라야 것이다.


sk
2018.11.26

클라우드 관리의 정석, Cloud Z Monitoring

BrandPost Sponsored by SK&IBM
SK | SK
ⓒGetty Image Bank

인프라와 플랫폼 관리자의 중요 일상 하나인 모니터링, 클라우드 환경의 모니터링은 어떻게 다를까? 일단, 체계가 잘 잡혀 있는 사내 환경 모니터링과 비슷한 구조로접근할 없다. 클라우드는 구조도 다를 아니라 일단 규모가 크기 때문이다. 인프라와 플랫폼 데이터 수집 접점도 많다.

상용 솔루션 가지를 조합하면 되는 사내 환경과 달리, 클라우드에서 수집한 데이터를 변환하고 처리하는 과정은 더 복잡하다. 클라우드 관리자는 클라우드 인프라와 플랫폼은 물론, 빅 데이터와 일라스틱서치 등 데이터 처리에도 밝아야 한다. 대시보드와 경보 생성 및 관리자 공지 시스템도 만들어야 한다. 클라우드 사용 범위를 넓혀 가면서 기업이 겪는 모니터링의 어려움을 해결하기 위해 매니지드 서비스 수준의 편리한 관제 옵션을 제공하는 업체가 늘고 있는 이유다.

클라우드 스케일 아키텍처
클라우드 모니터링은 간단하게 다양한 데이터 소스에서 자동으로 데이터를 수집하고, 이를 변환하고 저장한 다음 관리자가 직관적으로 현재 상황을 파악할 있도록 데이터를 시각화하는 것이라고 정의할 수 있다. 이를 수집, 변환, 저장, 시각화, 관리로 절차를 구분하고 단계에 필요한 요소 기술과 고려 사항은 대략 다음 그림과 같이 표현할 있다. 클라우드 스케일이란 말이 실감날 정도로 모니터링 과정이 복잡하고 사용하는 기술도 다양하다.
 
ⓒSK

예시로 아키텍처는 Cloud Z Monitoring 서비스다. 아키텍처는 클라우드 스케일의 모니터링의 범위가 얼마나 넓은지를 보여 준다.

작게는 수십, 많게는 수백 가지의 기술과 솔루션이 이벤트를 생성할 때는 로그 정보 수집만도 간단하지 않다. 그리고 클라우드는 규모가 언제, 어떻게 확장/축소될지 모른다는 특징이 있다. 이런 탄력성을 반영해 에이전트 기반 또는 에이전트리스 방식으로 여러 모니터링 대상을 수용해야 한다.

Cloud Z, VM웨어, 클라우드파운드리(CloudFoundary), 쿠버네티스(Kubernetes) 다양한 인프라와 플랫폼은 기본적으로 지원해야 한다. 여기에 다양한 오픈 소스 기반 데이터 수집기(collects)를 적용 가능해야 클라우드 규모라 있다.

이런 수준의 모니터링 체계를 기업이 독자적으로 만들 수 있을까? 기업 내부 인력과 역량만으로 수많은 데이터 수집 포인트에서 실시간으로 들어오는 이벤트와 거대한 분량의 로그 정보를 처리할 엄두를 내기란 쉽지 않을 것이다.
 
ⓒSK

실시간 가시성 제공
정보는 왜 수집해야 할까? 성능 병목이나 장애가 발생할 때, 어느 구간에서 어떤 원인으로 문제가 발생했는지 파악해 특정 문제가 비즈니스 중단 같은 위기 치닫지 않게 하기 위해서다. 사내 환경만 놓고 모니터링을 해도 쏟아지는 이벤트와 로그 정보를 감당하지 못한다. 설계된 메트릭을 적용해도 봐야 것과 그냥 흘려 보낼 정보를 가려내기 힘들다. 사내 환경도 이렇게 힘든데 클라우드에서 어떻게 중요 경보(alert) 놓치지 않고 있을까? 이때 Cloud Z Monitoring 임계치와 상태 기반으로 경보를 생성해 관리자에게 다양한 채널을 통해 알려준다.

경보 생성 못지않게 중요한 것이 데이터 시각화다. 관제 업무는 기본적으로 전체 현황 정보를 한눈에 파악할 수 있어야 한다. Cloud Z Monitoring 경우 다양한 대시보드 템플릿을 제공한다. 기업의 요구와 입맛에 맞춰 운영 환경별 맞춤형 대시보드를 구성할 있다. 인프라, 플랫폼, 나아가 비즈니스 애플리케이션이나 서비스의 성능까지 확인하고, 시간의 흐름에 따른 현황 모니터링 정보를 다양한 패널로 시각화하는 한편, 필요한 정보를 간단하 쿼리할 수도 있다.
 
ⓒSK


이런 특징을 통해 특정 구간에 성능 병목이 발생해 사용자 경험이나 서비스 품질에 영향을 끼칠 경우에도 즉시 대응에 필요한 가시성을 확보할 있다.

한편, Cloud Z Monitoring오픈 플랫폼인 Grafana 대시보드를 기반으로 하는 매니지드 서비스이므로, 특정 기술 종속에 대한 우려도 적고, 프라이빗 클라우드와 퍼블릭 클라우드를 하나로 묶어 통합 관제 서비스를 받아야 할 때도 유리하다.

신속한 협업
Cloud Z Monitoring 같은 모니터링 서비스를 이용하는 가장 이유는 장애 대응이다. 기업마다 정해놓은 장애 등급에 따른 대응책이 다를 것이다. 1초의 지연이나 다운타임도 허용할 없는 대외 서비스의 경우, 장애 탐지부터 대응까지 매우 신속한 대응이 요구된다. 일반적인 업무 시스템에서도 장애 해결에 하염없이 시간을 허비할 수는 없다.

모니터링 서비스가 필요한 이유가 바로 여기에 있다. 경보를 받자마자 해당 원인을 찾고 분석해 가능한 빠른 대응을 하는 것이다. 이런 측면에서 모니터링 서비스에서의 협업 도구 역시 매우 중요한 요소다. 관제 요원이 경보를 보고 이상 징후를 파악했다면, 다음 해야 일은 분야별 관계자와 협의해 빨리 대응하는 것이다. 과정에서 실시간 협업은 매우 중요하다. Cloud Z Monitoring 경우 최신 도구와 노하우가 조화롭게 어우러져 있다. Cloud Z Monitoring은 SI 기업으로 쌓아온 20년 운영 프로세스 노하우를 반영한 매니지드 기반 SVC 기능으로 개발과 운영의 원활한 협업을 지원한다. 매니지드 SVC는 사전에 잘 정립된 절차를 따르며 Slack, OpsGenie 등의 원활한 소통을 위한 SaaS 서비스가 통합되어 있다. 이런 특징으로 인해 모니터링 중 발생하는 다양한 상황에 관한 정보가 알람 조건에 따라 여러 서비스 채널 관계자에게 원활하게 전달 및 공유된다. 
 
ⓒSK


클라우드 서비스를 소규모로 시작할 때는 모니터링의 중요성이 크게 두드러지지 않는다. 하지만 클라우드 사용량이 일정 규모 이상으로 커지면 모니터링은 안정적인 서비스 운영에 있어 가장 중요한 우선순위 높은 과제가 된다. 어떤 선택을 하건, 클라우드 스케일에서 성능과 장애를 모니터링할 있어야 한다는 기준을 따라야 것이다.


sk
X