AIㆍML / 데이터센터

AI와 머신러닝으로 자율 운영 데이터센터를 구현하는 방법

Neal Weinberg | Network World 2020.08.12


비조는 “상태 모니터링은 장비가 올바르게 구성되어 있고 기대치에 부합하는지 확인하면서 시작된다. 수만 개의 구성품을 가진 수백 또는 수천 대의 IT 캐비닛은 이런 일상적인 작업이 노동집약적이기 때문에 항상 시의적절하고 엄격하게 수행되지는 않는다”라고 덧붙였다.

또 많은 양의 데이터 로그에 기초한 예비 장비 고장 모델링으로 “어렴풋한 구성품 또는 장비 고장을 찾아내고 서비스 정지”를 유발할 수도 있는 용량 손실을 방지하기 위해 즉각적인 유지보수가 필요한지 여부를 평가할 수 있다고 지적했다.

주니퍼 네트웍스의 엔터프라이즈 및 클라우드 마케팅 담당 부사장 마이클 부숑은 기업 데이터센터 운영자가 AI와 관련된 일부 과장된 약속과 광고를 무시하고 이른바 ‘지루한 혁신’에 집중해야 한다고 강조했다. 또 AI 시스템이 언젠가는 “무엇이 잘못되었고 그것을 고치라고 말할 수 있겠지만,” 현재로서는 많은 데이터센터 운영자는 “문제가 발생하면 위치를 알려주는” 수준에 만족할 것이라고 덧붙였다.

의존성 맵핑도 중요한 요소이지만, AI를 활용할 수 있는 특별히 기대되는 영역은 아니다. 데이터센터 관리자가 방화벽 또는 기타 장비의 정책을 변경한다면 어떤 의도하지 않은 결과가 발생할까? 부숑은 “관리자가 변경할 내용을 제시하면, ‘폭발 반경’ 내에 어떤 것이 있는지 알 수 있다면 유용할 것이다”라고 말했다.

원활하고 안전한 장비 운영 유지의 또 다른 중요한 측면은 환경 구성 드리프트를 통제하는 것이다. 이것은 데이터센터에서 즉석 구성 변경사항이 점차 축적되어 문제를 발생시키는 현상을 일컫는 말이다. AI를 “추가적인 안전 점검” 요원으로 활용하여 임박한 환경 구성 기반 데이터센터 문제를 찾을 수 있다.

AI와 보안

비조에 따르면, AI와 머신러닝은 “중요한 것을 찾아 노이즈로부터 분리하기 위해 신속한 이벤트 분류 및 클러스터링을 수행하여 이벤트 취급(사고 대응)을 간소화할 수 있다. 더욱 신속한 근본 원인 분석은 운영자가 정보에 기초하여 의사를 결정하고 조치를 취하는 데 도움이 된다.”

슐츠는 AI가 특히 실시간 침입 탐지에 유용하다고 덧붙였다. AI 기반 시스템은 위협을 감지, 차단, 격리한 후 되돌아가 포렌식 조사를 수행해 무슨 일이 있었고 해커가 어떤 취약성을 악용할 수 있었는지 정확히 판단할 수 있다.

보안관제센터에서 근무하는 보안 전문가는 과도하게 많은 경보에 압도될 때가 있지만, AI 기반 시스템은 많은 양의 원격 측정 데이터와 로그 정보를 스캔하여 일상적인 작업을 줄임으로써 보안 전문가가 더욱 심오한 조사를 수행하도록 도울 수 있다.
 

AI 기반 워크로드 최적화

애플리케이션 계층에서 AI는 워크로드를 온프레미스 또는 클라우드 등 적절한 목적지로 옮기는 작업을 자동화할 수 있다. 비조는 “AI/ML은 앞으로 성능, 비용, 거버넌스, 보안, 위험, 지속 가능성을 기준으로 다양한 사양을 고려해 워크로드의 위치를 실시간으로 결정할 것이다”라고 말했다.

예를 들어, 워크로드를 자동으로 가장 전력 효율이 높은 서버로 이전하고 서버가 최대 효율성(70~80% 활용도)으로 작동하도록 할 수 있을 것이다. AI 시스템은 성능 데이터를 이 수식에 통합해 시간에 민감한 앱이 고효율성 서버에서 구동하도록 하면서 동시에 고속 실행이 필요 없는 애플리케이션이 전력을 과도하게 소비하지 않도록 할 수 있다는 설명이다.

AI 기반 워크로드 최적화는 MIT연구원들의 이목을 집중시켰는데, 이들 연구원은 지난 해 수천 개의 서버에 걸쳐 데이터 처리 운영을 예약하는 방법을 자동으로 학습하는 AI 시스템을 개발했다고 발표했다. 하지만 부숑이 지적했듯이 오늘날의 워크로드 최적화는 일반적인 기업 데이터센터가 아니라 아마존, 구글, 마이크로소프트 같은 대기업의 영역이다. 
 

AI 구현의 과제

데이터센터 최적화와 자동화는 지속적인 디지털 전환 이니셔티브의 중요한 부분이다. 델 테크놀로지스의 타벳은 “코로나19로 인해 많은 기업이 현재 추가적인 자동화를 추진하고 있으며, AI 지향적이며 자동 수리가 가능한 ‘디지털 데이터센터’의 아이디어를 추구하고 있다”라고 말했다.

구글은 2018년 자사가 보유한 여러 초대형 데이터센터 냉각 시스템의 통제를 AI 프로그램으로 이전했다고 발표했으며, AI 알고리즘의 권고사항으로 에너지 사용량이 40%나 감소했다고 밝힌 바 있다.

하지만 구글 외의 기업에는 데이터센터의 AI가 “대부분 목표일뿐”이다. 비조는 “일부 AI/ML 기능은 이벤트 취급, 인프라 상태, 냉각 최적화에 적용할 수 있다. 하지만 AI/ML 모델이 오늘날의 일반적인 DCIM(Data Center Infrastructure Management)으로 가능한 수준을 넘어 더욱 가시적인 성과를 달성하려면 몇 년이 걸릴 것이다. 자율주행 자동차 개발과 마찬가지로 초기 단계는 흥미로울 수 있지만, 궁극적으로 약속하는 혁신적인 경제/비즈니스와는 거리가 멀다”고 지적했다.

타벳에 따르면, “적절한 사람을 고용하거나 교육해 시스템을 관리해야 한다는 점이 장벽 중 하나이다. 데이터 표준 및 관련된 아키텍처의 필요성 문제를 인지해야 한다.” 가트너는 “AI옵스 플랫폼 성숙도, AI 기술, 운영 성숙도가 주된 한계이다. 기타 새로운 고급 배치의 문제로는 데이터 품질, (IT 인프라 및 운영팀 내부의) 데이터 과학 기술의 부재 등이 있다”라고 밝혔다. 

큰 장벽 중 하나는 사람이다. 데이터 과학자를 고용하는 것이 많은 기업에 문제가 되고 있으며, 기존의 직원을 교육하는 것도 어렵다. 또한 IT 부서는 통제권을 뺏기는 기술을 거부했던 적이 많다. 부숑은 SDN이 개발된 지 10년이 되었지만, IT 운영의 3/4 이상이 여전히 CLI 지향적이라고 꼬집었다.

부숑은 “모든 인프라의 운영자가 AI에 통제권을 넘겨줄 준비가 되어 있다고 생각해야 한다”며, “만약 한 집단이 통제자의 의사결정 능력을 신뢰하지 못한다면, 일자리를 잃을지도 모른다는 태도가 업계에 만연한 상황에서 어떻게 IT가 생각을 바꾸도록 교육하고 훈련할 수 있겠는가?”라고 반문했다.

이 때문에 부숑은 기업들이 AI를 점진적으로 추진하고 새로운 기술에 대해 자주 등장하는 광고에 현혹되지 않아야 한다고 조언했다. editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.