2020.05.13

'절차 간소화부터 자동화까지' AI옵스란 무엇인가

Isaac Sacolick | InfoWorld
데브옵스(DevOps)와 SRE(Site Reliability Engineering)는 애플리케이션을 관리 및 유지하는 데 필수적이다. 여기에 더해 AI옵스(AIops)가 효율성을 한 단계 더 높일 수 있다.

IT 운영팀은 시스템 및 애플리케이션의 성능 문제를 여러 툴을 사용해 모니터링, 진단, 해결한다. 1,300 명의 IT 전문가를 대상으로 한 ‘모니터링 및 AI옵스의 미래(future of monitoring and AIops)’에 관한 최근 설문조사에 따르면 응답자의 42%가 10가지 이상의 모니터링 툴을, 19%는 25가지 이상의 툴을 사용한다. 

단지 시스템을 원활하게 운영하고 애플리케이션 오류를 모니터링, 알림, 조사, 해결하는 데 필요한 데이터를 제공하는 것치고는 너무 많은 도구를 사용하는 것이 아닐까? 
 
ⓒGetty Images

여기에는 이유가 있다. 만능 모니터링 툴이 없기 때문이다. 수십 개의 모니터링 툴은 각각 다 하는 역할이 있다. 멀티 클라우드 환경에서 미션 크리티컬 애플리케이션을 구동하는 경우라면 특히 그렇다. 게다가 모바일 앱, 마이크로서비스, 데이터옵스, 데이터 과학에 대한 투자가 진행되면서 도메인별 모니터링 기능을 제공하는 새로운 모니터링 툴까지 등장하고 있다. 

AI옵스 플랫폼의 목표는 이런 복잡한 모니터링 툴 환경을 단순화하는 것이다. AI옵스는 높은 수준의 애플리케이션 서비스를 필요로 하는 기업이 모니터링 툴과 IT 운영 워크플로우의 복잡성을 한층 원활하게 처리하는 데 도움을 준다. 이름에서 알 수 있듯 AI옵스는 머신러닝과 자동화 기능을 IT 운영에 제공한다. 이를 통해 오류를 신속하게 해결하고, 성능에 영향을 미치는 운영 추세를 식별하고, 문제 해결에 필요한 절차를 간소화하도록 하기 위해서다. 

AI옵스는 새로운 플랫폼이다. 위의 설문조사에서 42%의 응답자가 AI옵스라는 말을 들어본 적이 없거나, IT 운영에 머신러닝을 적용하는 것이 크게 유효하지 않을 것 같다고 밝혔다. 불과 4%만이 현재 실무에서 AI옵스를 활용 중이라고 응답했다. AI 옵스는 아직 초기 단계지만 여러 기업이 고려할 만한 확실한 활용처가 있다. 

AI옵스가 부상하는 이유 
오늘날 많은 기업들이 애플리케이션을 통해 고객에게 서비스를 제공하고 업무를 처리한다. 따라서 애플리케이션은 높은 안정성, 성능, 보안 수준을 요구한다.  

이에 따라 애플리케이션 개발팀 또한 새로운 애플리케이션을 개발하고 더 자주 업데이트해야 하는 상황이다. 애플리케이션 서비스 수준을 유지하는 직무는 지난 10년 동안 범위가 넓어졌다. 

과거에는 기업들이 네트워크 운영 센터(Network Operation Center, NOC)를 최전방 방어선으로 배치했다. NOC 사무실에 들어가면 경고등과 운영 추세를 보여주는 수십 대의 컴퓨터 모니터를 볼 수 있었다. 이는 직원들이 문제를 정확히 파악하는 데 도움을 준다. 이상적으로는 엔드유저가 문제를 겪고 지원을 요청하기 전에 말이다. 

현업 부문 및 IT 리더가 데브옵스와 사이트 안정성 엔지니어링(SRE)을 도입하면서 해당 모델이 바뀌기 시작했다. 데브옵스는 빈번한 배포를 통해 직원과 고객의 요구에 빠르게 대응하도록 공동 책임을 지게 하면서 IT 부서 문화에 변화가 나타났다. 지속적 통합과 배포(CI/CD), 코드로서의 인프라(Infrastructure as Code, IaC)와 같은 툴과 관행이 빈번한 배포를 지원한다. 

데브옵스는 또한 운영 책임도 공유한다. 이를 통해 애플리케이션의 안정성, 성능, 보안을 보장한다. 이는 곧 IT 조직의 더 많은 사람들이 온갖 모니터링 툴에 접근해야 한다는 것을 의미한다. 

많은 IT 조직이 개발과 운영을 연결하기 위해 SRE를 채용하기도 한다. SRE는 소프트웨어 엔지니어링을 바탕으로 시스템 관리 문제에 접근한다. SRE를 대상으로 한 다른 설문조사에서 이들은 사건 대응이 자신의 주요 업무라고 밝혔다. 응답자의 49%가 매주 최소 1건의 사건에 대응한다는 것이다.
 
데브옵스 관행을 성숙시키고 SRE를 채용하는 것은 IT 조직의 운영 문제가 갈수록 늘어나고 있다는 방증이다. 그러나 이들이 수십 개의 모니터링 툴을 다루도록 하는 데 그친다면 이는 애플리케이션의 성능 저하를 부르는 지름길이다. 

AI옵스 플랫폼의 기능 및 기술적 아키텍처 
AI옵스 플랫폼은 일반적으로 아래의 아키텍처 구성 요소와 기능을 가지고 있다.

• 여러 모니터링 툴로부터 미가공 로그 및 데이터를 취합하는 중앙 데이터 플랫폼 
• 보편적인 로그 포맷, 모니터링 툴, IT 서비스 관리 툴, 애자일 개발 툴, 기타 협업 플랫폼과의 즉각적 통합
• 취합된 데이터의 패턴을 인식하는 머신러닝 기능 
• IT 운영팀이 중앙 인터페이스에서 여러 시스템을 확인하고 관리하는 데 도움이 되는 콘솔, 대시보드 및 애널리틱스 
• 현황과 문제를 알리고 자동으로 대응하는 자동화 기능 

다른 IT 운영 플랫폼과 달리 AI옵스는 데이터를 쉽게 취합할 수 있고, 머신러닝을 통해 문제를 찾으며, 자동화 툴로 문제를 해결한다. AI옵스는 기존 모니터링 툴을 대체하지 않는다. 오히려 기존 툴에 통합돼 문제에 대한 더 높은 가시성을 제공하는 것은 물론 여러 모니터링 툴을 배우고 사용하는 복잡성을 없앤다.  

마찬가지로 AI옵스 플랫폼은 기존 IT 서비스 관리, 워크플로우, 애자일, 다른 커뮤니케이션 툴을 대체하지 않는다. 그 대신 오류를 경고하고 해결하는 과정에서 해당 툴 및 서비스를 연결하는 중앙 플랫폼 역할을 한다. 

애플리케이션 모니터링에서 나타날 수 있는 문제
사용자가 전자상거래 앱에서 제품을 구매하려 하는데 앱의 속도가 느려졌다고 가정해보자. 이를 알려주는 첫 번째 지표는 장바구니 이탈률이다. 

전자상거래 책임자는 처웰(Cherwell) 모바일 인터페이스를 통해 지원 요청을 한다. 그러나 IT팀은 이미 문제에 대한 경고 알림을 받은 상태이다. 구매자 수가 많아지면서 기저의 웹 서버가 버벅거리고 데이터베이스 접속이 대기 상태였던 것이다. 모니터링 서비스인 데이터도그(DataDog)가 이 문제를 경고하고, 스플렁크(Splunk)는 전자상거래 애플리케이션의 로그 파일에서 자바 예외(Java exceptions)를 보고한다. 

이제 NOC가 이 문제에 대응한다고 생각해보자. 동시 발생한 다수의 경고 알림이 동시 발생하는 가운데 어디서부터 시작해야 하는가? 이를 지원하고자 호출된 SRE 역시 각종 툴에서 나온 여러 경고 알림을 조사해야 한다. 한편 전자상거래 책임자는 자신의 지원 요청에 대응하는 사람이 없어서 화가 치민다.  

AI옵스는 문제를 더 빨리, 더 효과적으로 해결한다 
여기서는 AI옵스가 어떻게 더 빨리, 더 효과적으로 문제를 처리할 수 있는지 살펴본다. 
 
첫째, AI옵스는 애플리케이션 경보를 포함해 여러 경보가 울리는 것을 확인한다. 그리고 SRE에게 경보를 자동 발송한다. SRE가 응답했다면 이를 처웰 모바일 인터페이스에 자동 업데이트한다. 이 과정에서 어떤 시스템도 수동 업데이트할 필요가 없다. 

둘째, 처웰, 전자상거래 플랫폼, 스플렁크, 데이터도그의 경보를 모두 취합하여 시간순으로 정리한다. SRE는 어떤 경보가 먼저 들어왔는지 즉시 알 수 있다. 이는 SRE에게 매우 유익하다. 웹서버 장애, 풀링 데이터베이스 접속이 모두 자바 애플리케이션 예외 이후 시작되었음을 즉시 확인할 수 있기 때문이다. 

AI옵스 플랫폼의 머신러닝 기능은 상당히 정교한 편이다. 따라서 경보를 자동 발송하는 것뿐 아니라 예외적인 운영 상태도 보고할 수 있다. 전자상거래 애플리케이션에서 하나의 IP주소에 여러 개의 느린 아웃바운드 접속이 있는 경우가 있다. 이 문제에 대한 일반적인 모니터링 툴의 경보나 예외 관련 보고는 없을 가능성이 높다. AI 옵스 플랫폼은 이러한 다른 경보를 앞서 보고한다. 

이를 통해 해당 접속 문제가 구매자의 도시, 주, 우편번호를 검증하는 서드파티 서비스 때문이라는 것을 파악하는 데는 많은 시간이 걸리지 않는다. 이 서비스가 전체 애플리케이션 성능에 영향을 미치는 문제라는 것을 식별한 SRE는 전자상거래 개발팀의 지라 백로그에 심각성 높은 결함을 추가해 문제를 경고한다. 

심각성이 높은 문제라면 애자일 개발팀은 스트린트 실무를 중단하고 이를 우선 처리한다. 이를 통해 신속하게 문제 있는 서비스를 정상화시킬 수 있다. 또한 젠킨스 CI/CD 파이프라인을 따라 변화를 쉽게 테스트하고 배포할 수 있다. 

AI옵스 플랫폼은 해당 결함, 배포, 모든 경보 상태를 추적하고 이를 전자상거래 책임자에게 계속 업데이트해준다. 또한 모든 모니터링이 정상 복귀되면 문제를 자동으로 마감한다.  

이 시나리오 구현이 쉽진 않을 것이다. 하지만 그렇다고 해서 AI 옵스 플랫폼이 공상과학(SF) 소설에 나올 법한 이야기는 아니다. ciokr@idg.co.kr


2020.05.13

'절차 간소화부터 자동화까지' AI옵스란 무엇인가

Isaac Sacolick | InfoWorld
데브옵스(DevOps)와 SRE(Site Reliability Engineering)는 애플리케이션을 관리 및 유지하는 데 필수적이다. 여기에 더해 AI옵스(AIops)가 효율성을 한 단계 더 높일 수 있다.

IT 운영팀은 시스템 및 애플리케이션의 성능 문제를 여러 툴을 사용해 모니터링, 진단, 해결한다. 1,300 명의 IT 전문가를 대상으로 한 ‘모니터링 및 AI옵스의 미래(future of monitoring and AIops)’에 관한 최근 설문조사에 따르면 응답자의 42%가 10가지 이상의 모니터링 툴을, 19%는 25가지 이상의 툴을 사용한다. 

단지 시스템을 원활하게 운영하고 애플리케이션 오류를 모니터링, 알림, 조사, 해결하는 데 필요한 데이터를 제공하는 것치고는 너무 많은 도구를 사용하는 것이 아닐까? 
 
ⓒGetty Images

여기에는 이유가 있다. 만능 모니터링 툴이 없기 때문이다. 수십 개의 모니터링 툴은 각각 다 하는 역할이 있다. 멀티 클라우드 환경에서 미션 크리티컬 애플리케이션을 구동하는 경우라면 특히 그렇다. 게다가 모바일 앱, 마이크로서비스, 데이터옵스, 데이터 과학에 대한 투자가 진행되면서 도메인별 모니터링 기능을 제공하는 새로운 모니터링 툴까지 등장하고 있다. 

AI옵스 플랫폼의 목표는 이런 복잡한 모니터링 툴 환경을 단순화하는 것이다. AI옵스는 높은 수준의 애플리케이션 서비스를 필요로 하는 기업이 모니터링 툴과 IT 운영 워크플로우의 복잡성을 한층 원활하게 처리하는 데 도움을 준다. 이름에서 알 수 있듯 AI옵스는 머신러닝과 자동화 기능을 IT 운영에 제공한다. 이를 통해 오류를 신속하게 해결하고, 성능에 영향을 미치는 운영 추세를 식별하고, 문제 해결에 필요한 절차를 간소화하도록 하기 위해서다. 

AI옵스는 새로운 플랫폼이다. 위의 설문조사에서 42%의 응답자가 AI옵스라는 말을 들어본 적이 없거나, IT 운영에 머신러닝을 적용하는 것이 크게 유효하지 않을 것 같다고 밝혔다. 불과 4%만이 현재 실무에서 AI옵스를 활용 중이라고 응답했다. AI 옵스는 아직 초기 단계지만 여러 기업이 고려할 만한 확실한 활용처가 있다. 

AI옵스가 부상하는 이유 
오늘날 많은 기업들이 애플리케이션을 통해 고객에게 서비스를 제공하고 업무를 처리한다. 따라서 애플리케이션은 높은 안정성, 성능, 보안 수준을 요구한다.  

이에 따라 애플리케이션 개발팀 또한 새로운 애플리케이션을 개발하고 더 자주 업데이트해야 하는 상황이다. 애플리케이션 서비스 수준을 유지하는 직무는 지난 10년 동안 범위가 넓어졌다. 

과거에는 기업들이 네트워크 운영 센터(Network Operation Center, NOC)를 최전방 방어선으로 배치했다. NOC 사무실에 들어가면 경고등과 운영 추세를 보여주는 수십 대의 컴퓨터 모니터를 볼 수 있었다. 이는 직원들이 문제를 정확히 파악하는 데 도움을 준다. 이상적으로는 엔드유저가 문제를 겪고 지원을 요청하기 전에 말이다. 

현업 부문 및 IT 리더가 데브옵스와 사이트 안정성 엔지니어링(SRE)을 도입하면서 해당 모델이 바뀌기 시작했다. 데브옵스는 빈번한 배포를 통해 직원과 고객의 요구에 빠르게 대응하도록 공동 책임을 지게 하면서 IT 부서 문화에 변화가 나타났다. 지속적 통합과 배포(CI/CD), 코드로서의 인프라(Infrastructure as Code, IaC)와 같은 툴과 관행이 빈번한 배포를 지원한다. 

데브옵스는 또한 운영 책임도 공유한다. 이를 통해 애플리케이션의 안정성, 성능, 보안을 보장한다. 이는 곧 IT 조직의 더 많은 사람들이 온갖 모니터링 툴에 접근해야 한다는 것을 의미한다. 

많은 IT 조직이 개발과 운영을 연결하기 위해 SRE를 채용하기도 한다. SRE는 소프트웨어 엔지니어링을 바탕으로 시스템 관리 문제에 접근한다. SRE를 대상으로 한 다른 설문조사에서 이들은 사건 대응이 자신의 주요 업무라고 밝혔다. 응답자의 49%가 매주 최소 1건의 사건에 대응한다는 것이다.
 
데브옵스 관행을 성숙시키고 SRE를 채용하는 것은 IT 조직의 운영 문제가 갈수록 늘어나고 있다는 방증이다. 그러나 이들이 수십 개의 모니터링 툴을 다루도록 하는 데 그친다면 이는 애플리케이션의 성능 저하를 부르는 지름길이다. 

AI옵스 플랫폼의 기능 및 기술적 아키텍처 
AI옵스 플랫폼은 일반적으로 아래의 아키텍처 구성 요소와 기능을 가지고 있다.

• 여러 모니터링 툴로부터 미가공 로그 및 데이터를 취합하는 중앙 데이터 플랫폼 
• 보편적인 로그 포맷, 모니터링 툴, IT 서비스 관리 툴, 애자일 개발 툴, 기타 협업 플랫폼과의 즉각적 통합
• 취합된 데이터의 패턴을 인식하는 머신러닝 기능 
• IT 운영팀이 중앙 인터페이스에서 여러 시스템을 확인하고 관리하는 데 도움이 되는 콘솔, 대시보드 및 애널리틱스 
• 현황과 문제를 알리고 자동으로 대응하는 자동화 기능 

다른 IT 운영 플랫폼과 달리 AI옵스는 데이터를 쉽게 취합할 수 있고, 머신러닝을 통해 문제를 찾으며, 자동화 툴로 문제를 해결한다. AI옵스는 기존 모니터링 툴을 대체하지 않는다. 오히려 기존 툴에 통합돼 문제에 대한 더 높은 가시성을 제공하는 것은 물론 여러 모니터링 툴을 배우고 사용하는 복잡성을 없앤다.  

마찬가지로 AI옵스 플랫폼은 기존 IT 서비스 관리, 워크플로우, 애자일, 다른 커뮤니케이션 툴을 대체하지 않는다. 그 대신 오류를 경고하고 해결하는 과정에서 해당 툴 및 서비스를 연결하는 중앙 플랫폼 역할을 한다. 

애플리케이션 모니터링에서 나타날 수 있는 문제
사용자가 전자상거래 앱에서 제품을 구매하려 하는데 앱의 속도가 느려졌다고 가정해보자. 이를 알려주는 첫 번째 지표는 장바구니 이탈률이다. 

전자상거래 책임자는 처웰(Cherwell) 모바일 인터페이스를 통해 지원 요청을 한다. 그러나 IT팀은 이미 문제에 대한 경고 알림을 받은 상태이다. 구매자 수가 많아지면서 기저의 웹 서버가 버벅거리고 데이터베이스 접속이 대기 상태였던 것이다. 모니터링 서비스인 데이터도그(DataDog)가 이 문제를 경고하고, 스플렁크(Splunk)는 전자상거래 애플리케이션의 로그 파일에서 자바 예외(Java exceptions)를 보고한다. 

이제 NOC가 이 문제에 대응한다고 생각해보자. 동시 발생한 다수의 경고 알림이 동시 발생하는 가운데 어디서부터 시작해야 하는가? 이를 지원하고자 호출된 SRE 역시 각종 툴에서 나온 여러 경고 알림을 조사해야 한다. 한편 전자상거래 책임자는 자신의 지원 요청에 대응하는 사람이 없어서 화가 치민다.  

AI옵스는 문제를 더 빨리, 더 효과적으로 해결한다 
여기서는 AI옵스가 어떻게 더 빨리, 더 효과적으로 문제를 처리할 수 있는지 살펴본다. 
 
첫째, AI옵스는 애플리케이션 경보를 포함해 여러 경보가 울리는 것을 확인한다. 그리고 SRE에게 경보를 자동 발송한다. SRE가 응답했다면 이를 처웰 모바일 인터페이스에 자동 업데이트한다. 이 과정에서 어떤 시스템도 수동 업데이트할 필요가 없다. 

둘째, 처웰, 전자상거래 플랫폼, 스플렁크, 데이터도그의 경보를 모두 취합하여 시간순으로 정리한다. SRE는 어떤 경보가 먼저 들어왔는지 즉시 알 수 있다. 이는 SRE에게 매우 유익하다. 웹서버 장애, 풀링 데이터베이스 접속이 모두 자바 애플리케이션 예외 이후 시작되었음을 즉시 확인할 수 있기 때문이다. 

AI옵스 플랫폼의 머신러닝 기능은 상당히 정교한 편이다. 따라서 경보를 자동 발송하는 것뿐 아니라 예외적인 운영 상태도 보고할 수 있다. 전자상거래 애플리케이션에서 하나의 IP주소에 여러 개의 느린 아웃바운드 접속이 있는 경우가 있다. 이 문제에 대한 일반적인 모니터링 툴의 경보나 예외 관련 보고는 없을 가능성이 높다. AI 옵스 플랫폼은 이러한 다른 경보를 앞서 보고한다. 

이를 통해 해당 접속 문제가 구매자의 도시, 주, 우편번호를 검증하는 서드파티 서비스 때문이라는 것을 파악하는 데는 많은 시간이 걸리지 않는다. 이 서비스가 전체 애플리케이션 성능에 영향을 미치는 문제라는 것을 식별한 SRE는 전자상거래 개발팀의 지라 백로그에 심각성 높은 결함을 추가해 문제를 경고한다. 

심각성이 높은 문제라면 애자일 개발팀은 스트린트 실무를 중단하고 이를 우선 처리한다. 이를 통해 신속하게 문제 있는 서비스를 정상화시킬 수 있다. 또한 젠킨스 CI/CD 파이프라인을 따라 변화를 쉽게 테스트하고 배포할 수 있다. 

AI옵스 플랫폼은 해당 결함, 배포, 모든 경보 상태를 추적하고 이를 전자상거래 책임자에게 계속 업데이트해준다. 또한 모든 모니터링이 정상 복귀되면 문제를 자동으로 마감한다.  

이 시나리오 구현이 쉽진 않을 것이다. 하지만 그렇다고 해서 AI 옵스 플랫폼이 공상과학(SF) 소설에 나올 법한 이야기는 아니다. ciokr@idg.co.kr


X