Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
네트워크

글로벌 칼럼ㅣ네트워크 장애, 적은 여전히 내부에 있다

Tom Nolle | Network World 2022.08.30
30년 전 실시한 설문조사에 따르면 네트워크 중단의 가장 큰 원인은 사람의 실수였다. 그리고 오늘날에도 여전하다. 기업이 네트워크 운영을 개선하고, 간소화하며, 자동화하는 데 상당한 투자를 했다고 해도 마찬가지다.  ‘우리는 적을 만났고 그 적은 우리였다(We have met the enemy and they are us)’라는 옛말이 확실히 맞는 것 같다. 

네트워크 운영 전문가 상당수는 네트워크 복잡성이 운영 관리에서 감당할 수 있는 것보다 더 빠르게 증가하고 있는 게 문제라고 말할 것이다. 하지만 꼭 그런 것은 아니다. 적절한 스킬을 갖춘 네트워크 전문가를 확보하고 유지하는 문제, 네트워크 기술 자체의 문제도 있다. 이에 거의 모든 사람은 ‘더 많은’ 자동화가 해답이라고 보지만 일각에서는 자동화 도구가 또 다른 복잡성을 만드는 것은 아닌지 의문을 제기하기도 한다. 모두가 맞다. 
 
ⓒ Getty Images Bank
 

스킬 부족

네트워크 복잡성의 가장 큰 원인은 네트워크나 장치의 급증 때문이 아니다. 기업은 10년 전과 거의 동일한 수의 사이트를 연결하고 있으며, 해당 기간 네트워크 장치의 수가 많이 증가한 곳은 데이터센터뿐이다. 

문제는 기술 계층이다. 스위칭, 와이파이, 라우팅, 관리, 오케스트레이션, 보안 등은 모두 2가지 측면에서 복잡성을 증가시키는 관리 요소를 추가한다. 첫째, 관리해야 할 것이 너무 많고, 둘째, 다양한 관리 관행과 도구가 각 계층과 연관돼 있다. 기업이 직원 채용 및 유지에 있어 문제라고 보는 부분도 바로 여기다. 한 가지 네트워크 스킬을 갖춘 인력은 쉽게 찾을 수 있지만 만약 3~4개 다양한 스킬이 필요하다고 할 때 모든 스킬을 갖춘 인력을 채용할 가능성이 얼마나 될까? 해당 인력을 유지하려면 얼마를 지불해야 할까? 채용으로 모든 스킬을 확보할 수 없다면 (기존 인력을) 어떻게 훈련시켜야 하며, 시간은 얼마나 걸릴까?  

기업이 이 문제를 해결하는 한 가지 방법은 단일 벤더 네트워크다. 물론 이로 인해 벤더 종속 및 바가지 요금이라는 문제에 직면할 수도 있지만 점점 더 많은 기업이 단일 벤더를 통해 통합 운영 도구 및 관행을 얻을 수 있으며, 그렇지 않으면 넷옵스(NetOps) 요소를 통합하는 게 거의 불가능하다는 사실을 깨닫고 있다. 실제로 2022년 통합 운영이 멀티 벤더의 이점보다 중요하다고 답한 기업이 3분의 1에 달했다. 2년 전 5분의 1에서 증가한 수치다. 

또 단일 벤더 접근법은 넷옵스에서 인적 오류를 줄이는 인공지능 및 머신러닝에도 유용하다. 멀티-벤더 네트워크에서 AI/ML 작업을 지원하기 위해 각 소스의 네트워크 원격 측정을 통합하는 게 훨씬 더 어렵기 때문이다. 아울러 여러 벤더에서 수정 작업을 조정하기도 훨씬 더 어렵다. AI/ML은 기업이 넷옵스에서 인적 오류를 해결하기 위한 ‘희망’으로 자주 언급하는 기술이다. 하지만 단일 벤더 네트워크에서도 가용성 문제가 발생할 수 있다. 이를테면 네트워크 운영 인력이 AI 사용 방법을 파악하는 데 시간이 걸리거나 AI/ML이 예상대로 작동하지 않을 수 있다. 
 

깊이가 부족한 AI/ML 도구 

사용자가 AI/ML과 관련돼 지적하는 가장 큰 기술적 문제는 ‘피상적’이라는 점이다. 예를 들어 한 기업에서는 AI 도구를 도입한 지 4개월 만에 (해당 AI 도구가) 무려 100개 이상의 작업을 제안했는데, 이들 대부분이 AI 지원 없이 운영센터 직원이 해도 1초 이상 걸리지 않았을 작업이었다. 직원이 도움을 필요로 했던 사례에서 AI 시스템은 더 많은 정보를 원하거나 원인 및 해결 방법에 관해 모호하고 일반적인 제안을 했다. 그렇다. 관리 시스템에 ‘AI’를 추가하는 것만으로는 큰 효과를 얻을 수 없다.

넷옵스에서 두 번째로 많은 AI/ML 관련 불만은 ‘과도한 의존’이었다. 모든 넷옵스 전문가는 입을 모아 네트워크 운영 센터(NOC)에서 ‘상황 인식’이 중요하다고 말한다. NOC 인력은 AI/ML로 인해 안일해지고, 네트워크에서 일어나는 일을 잘 알지 못하며, 중요한 추세를 놓치거나, 직원이 개입해야 할 때 과거의 자동화된 변경 사항을 고려해야 한다는 사실을 잊어버리기 쉽다. 

‘피상적’이라는 문제의 가장 좋은 해결책은 엔터프라이즈 NOC에서 실제 사용하는 AI/ML 도구를 평가하는 것이다. 벤더 데모를 활용할 수도 있지만 AI/ML이 유용한 인사이트를 제공하는지 확인하는 유일한 방법은 작동 중인 상태를 보고 NOC 직원과 논의하는 것이다. 

‘과도한 의존’ 문제는 NOC의 관행과 절차 그리고 고위 경영진의 기대치를 통제하는 것이 중요하다. AI에 많이 의존할수록 AI가 무언가를 할 수 없거나 잘못하면 NOC가 개입하기 어렵다. 거의 모든 네트워크 전문가가 NOC 인력이 무기력하게 서 있는 동안 AI가 장치 또는 연결을 중단하는 시나리오를 우려하는 것도 이 때문이다. 아울러 AI가 최대 1명의 인력과 네트워크를 운영할 수 있다는 희망을 떨쳐버릴 수 있는 고위 경영진도 거의 없다. 따라서 양쪽 모두의 변화가 필요하다.

기업은 AI/ML 조치가 완료된 후 운영 담당자가 상태를 검토하는 절차를 수립해야 한다. 또한 운영 담당자가 네트워크 상태를 점검하고 (AI/ML이) 취한 조치의 결과와 조치 이후 해당 조건이 향후 작업에 영향을 미칠 수 있는지 확인하도록 해야 한다. 특히, 이러한 로그를 정기적으로 검토하는 건 NOC 직원으로 하여금 AI/ML 시스템이 무엇을 하고 있는지 생각하게 하는 좋은 방법이다.

한편 AI/ML이든 전통적인 운영 도구이든 상관없이, 네트워크 원격 측정이 중요하다. 그렇다고 시스템에서 정보를 펌핑하는 것이 모든 문제의 해결책이라는 뜻은 아니지만 데이터 소스를 매핑하면 네트워크에서 중요한 지점을 커버할 수 있다. 커버리지의 구멍은 네트워크 내부에서 (사용자에게는 보이지 않는) 일이 발생해 네트워크 전체에 영향을 미칠 수 있다는 점을 의미한다. 

* Tom Nolle은 전략 컨설팅 회사 씨미 코퍼레이션(CIMI Corporation)의 사장이다. ciokr@idg.co.kr
 Tags 네트워크 모니터링 네트워킹 넷옵스 네트워크 운영 센터 NOC
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.