IT 관리 / 네트워크

네트워크 운영에서 발생하는 대표적인 인적 오류 4가지와 대처법

Tom Nolle | Network World 2023.08.23
네트워크 중단의 원인은 오류 분석 및 대응, 구성 변경, 확장 및 장애 조치, 보안 정책 등 오류가 발생하기 쉬운 4가지 활동에서 찾을 수 있다.

건수만 놓고 보면, 모든 네트워크 문제의 절반은 사람의 실수로 인해 발생한다. 하지만 성능 저하나 운영 장애 시간을 보면, 3/4은 사람의 실수로 인한 것이다. 게다가 이런 문제의 대부분은 다음 4가지 구체적인 활동에서 원인을 찾을 수 있다.
 
  • 장애 분석 및 대응. 인적 오류로 인한 가동 중단 시간의 36%
  • 구성 변경. 인적 오류로 인한 가동 중단 시간의 27%
  • 확장 및 장애 복구 작업. 인적 오류로 인한 가동 중단 시간의 19%
  • 보안 정책. 인적 오류로 인한 가동 중단 시간의 18%

당연히 네트워크 전문가들은 4가지 주요 원인 각각에 대한 해결책을 찾고자 한다. 하지만 그 전에 인적 오류가 발생하는 이유를 이해하는 것이 중요하다.
 
ⓒ Getty Images Bank

필자의 조사에 따르면, 몇 가지 오류가 자주 발생하고 이들 오류는 4가지 활동 중 하나 이상과 연관되어 있다. 사실 거의 모든 일반적인 오류가 모든 활동에 영향을 미칠 수 있지만, 가동 중단 시간의 주요 원인이 되는 오류에 집중하는 것이 좋다. 자주 발생하는 오류는 다음과 같다.
 
  • 운영 담당자를 압도하는 이벤트
  • 운영 담당자가 "상황을 파악하지 못함"
  • IT/소프트웨어 구성과 네트워크 구성 간의 상호종속성
  • 부정확하고 불완전하며 오래된 문서화
  • 다루기 까다로운 장비
  • 자격과 교육이 부족한 인력
 

이벤트 폭주

필자가 상담한 모든 기업이 문제로 꼽은 오류 원인 중 첫 번째는 이벤트가 운영 인력을 압도한다는 것이다. NOC(Network Operation Center) 개선 계획의 대부분은 근본 원인 분석 등을 통해 '이벤트 부하'를 줄이는 데 초점을 맞추고 있으며, 이 부분에서 AI 툴의 잠재력이 크다. 

하지만 이런 과부하가 발생하는 데는 총괄 책임자가 없다는 것이 크게 작용한다. 실제로 NOC는 경보가 쇄도할 때 종종 엉뚱한 곳으로 새는 경우가 많고, 이 때문에 직원들은 서로 상충되는 일을 하게 된다. 한 사용자는 "NOC 직원을 지리적 또는 기술적 책임에 따라 나누면 상충되는 대응을 하게 된다"라고 지적했다. NOC 코디네이터가 '단일 창구'에 앉아 문제에 대한 전반적인 대응을 주도하는 것이 유일한 방법이다.
 

상황 파악

이벤트 폭주는 83%의 기업이 보고한 오류 원인 중 두 번째 원인인 운영 담당자의 '상황 파악 실패'와 관련되어 있다. 오류를 필터링하거나 근본 원인을 제안하는 NOC 툴이 일부 잠재적인 문제를 숨기거나 NOC 직원의 시야를 가려 이 문제를 키우기도 한다.
 
'로컬'에서 환경 구성을 변경하면서 이런 변경이 나머지 네트워크에 미치는 영향을 잊어버리는 경우가 드물지 않다. 어디에서 어떤 환경 구성을 변경하더라도, 심지어 장애에 대응하기 위한 것이라도 반드시 사전에 NOC팀과 상의하고 승인을 받아야 한다.
 

네트워크/IT 상호종속성

기업의 3/4 이상이 IT/소프트웨어 구성과 네트워크 구성 간의 상호종속성이 오류의 중요한 원인이라고 답했다. 이들 중 거의 모든 사용자가 변경 사항이 네트워크에 영향을 미칠 수 있는지 확인하지 않고 애플리케이션 호스팅 또는 구성을 변경해 장애를 경험한 적이 있는 것으로 나타났다. 네트워크 구성 변경으로 애플리케이션 장애를 경험한 사용자는 그 절반에 불과했다. 

전반적으로 이런 인적 오류의 원인은 구성 변경과 관련된 거의 모든 문제와 확장 및 장애 조치와 관련된 대부분 문제의 원인이 된다. 이 문제에 대한 최선의 해결책은 애플리케이션 배치 또는 네트워크 구성 변경에 대해 IT팀과 네트워크 운영팀 간에 명시적으로 조율하는 것이다
.
팀 간 조율로 문제를 줄일 수는 있지만, 놓친 문제를 찾아서 고치는 데는 큰 도움이 되지 않는다. 해결책은 NOC 내의 애플리케이션 가시성을 개선하는 것인데, 이를 지원하는 기업은 1/4에 불과했다. 네트워크 단일 창을 갖춘 NOC 총괄 코디네이터가 있는 경우, 단일 창에서 최소한 입출력 속도 측면에서 애플리케이션 상태에 대한 개요를 제공해야 한다. 또한 사용자는 네트워크/IT 구성을 변경하기 위한 단계를 수행할 때마다 변경사항을 되돌릴 수 있는 단계도 함께 준비해야 한다.
 

문서화

심각한 네트워크 중단을 초래하는 비율은 낮지만, 대부분 사용자가 공감하는 문제의 원인이다. 운영 소프트웨어 및 네트워크 장비에 대한 부정확하고 불완전하며 오래된 문서는 그 자체로 근본 원인이 되기도 하지만, 운영 혼란을 야기하는 경우가 더 많다. 기업의 1/3은 문서 라이브러리가 "더 잘 정리되고 유지 관리되어야 한다"고 말하는데, 필자는 거의 모든 기업의 문서 라이브러리에 해당되는 말이라고 추정한다. 10% 미만의 기업은 공식적인 문서 라이브러리가 전혀 없다고 답하기도 했다.

이렇게 자주 보고되는 문제에 대한 해결책은 매우 간단하다. 기업에는 공식적인 기술 문서 라이브러리와 이를 최신 상태로 유지하기 위해 솔루션 업체에 정기적으로 확인하는 담당자 모두가 필요하다. 기업 5곳 중 1곳은 라이브러리 유지 관리를 위한 '절차'가 있다고 답했지만, 임시직이라도 담당자가 있다고 답한 기업은 그 절반도 되지 않는다. 필자 역시 실제 수치가 그다지 높지 않을 것으로 본다.

또한 문서 라이브러리는 IT 미디어와 같은 비형식적인 정보를 수집하고 적절한 공급업체/제품 정보가 포함된 문서를 파일로 만들어야 한다. 즉, IT 미디어를 보는 모든 사람이 문서 라이브러리 담당자에게 적절한 자료를 제공하도록 해야 한다.
 

다루기 까다로운 장비

다음은 골치 아픈 장비 또는 서비스 연결이다. 양치기 소년 이야기는 너무나 잘 알려져 있다. 이유없이 이벤트를 발생시키는 문제가 반복되면 운영 담당자가 특정 문제에 면역이 될 뿐만 아니라 비슷한 이벤트 유형에 둔감해질 수 있다. 예를 들어 회선 오류 문제가 반복되면, 담당자가 다른 회선 오류도 간과할 수 있다.

심각한 문제라고 답한 기업은 23%였지만, 주의를 요하는 이벤트가 지속적으로 발생하는 기업은 모두 이 문제로 인해 직원들이 다른 이벤트를 간과하게 됐다고 답했다. 해결책은 반복적으로 경보가 나오는 장비를 교체하고 서비스 문제는 업체에 불만을 제기해 단계적으로 줄여가는 것이다. NOC는 공식 절차에 따라 교대 근무 시 최소 한 번 이상 장애 요약을 작성하고 검토해 문제 영역을 파악하는 것을 공식 절차로 규정해야 한다.
 

직원의 기술력 및 교육

자격이 부족하거나 교육이 부족한 직원이 목록의 마지막에 올라 있지만, 중요성이 가장 낮은 문제는 아니다. 85%나 되는 기업이 이 문제를 꼽았는데, 필자의 경험 상 그보다 훨씬 광범위하게 퍼져있을 것으로 보인다. 이 문제에는 두 가지 측면이 있다. 첫째, 직원이 일반적인 기술과 교육이 부족해 업무를 제대로 처리하지 못하는 것이다. 둘째, 직원이 새로 도입한 기술을 활용하는 데 문제가 있는 것이다.

첫 번째 문제를 해결하려면 "견습"이 필요하다. 신입 직원은 면밀한 감독 하에 일정 기간 근무해야 하며, 이 기간 동안 네트워크, 장비, 관리 도구의 특정 요구 사항에 대해 체계적으로 교육을 받아야 한다. 필요하다면, 수습 기간을 연장해 정식 교육을 추가할 수 있으며, 멘토가 서명할 때까지 수습 기간이 끝나지 않을 수도 있다. 자격 인증은 두 번째 문제에는 도움이 되지만, 첫 번째 문제에는 큰 효과가 없는 것으로 알려졌다. 한 네트워크 전문가는 "자격증은 어떤 일을 하는 방법을 알려 주지만, 멘토링은 무엇을 해야 하는지를 알려준다"고 지적했다.
 

오류와 오류가 발생하기 쉬운 활동의 상관관계

오류가 발생하기 쉬운 네 가지 활동으로 발생한 오류는 네트워크에 어떤 영향을 미칠까? 4가지 활동과 특정 오류, 그리고 오류가 얼마나 자주 발생하고 얼마나 심각한지를 정리했다. 참고로, 필자의 조사에서 자주 발생하는 오류는 최소 매월 보고되는 오류, 가끔 발생하는 오류는 1년에 4~6회 보고되는 오류, 드문 오류는 1년에 1회 이하로 보고되는 오류를 의미한다. 심각한 영향은 가동 중단을, 중대한 영향은 운영에 영향을 미치는 중단을 의미한다.

장애 분석 및 대응
이벤트 폭주 : 자주 발생, 심각한 영향
상황 파악 : 자주 발생, 심각한 영향
네트워크/IT 종속성 : 가끔 발생, 심각한 영향
문서화 : 자주 발생, 심각한 영향
다루기 까다로운 장비 : 가끔 발생, 심각한 영향
직원의 기술력 및 교육 : 자주 발생, 심각한 영향

구성 변경
이벤트 폭주: 드물게 발생, 심각한 영향을 미칠 수 있음
상황 파악 : 자주 발생, 심각한 영향
네트워크/IT 종속성 : 자주 발생, 심각한 영향
문서화 : 가끔 발생, 심각한 영향
다루기 까다로운 장비 : 드물게 발생, 중대한 영향
직원의 기술력 및 교육 : 자주 발생, 심각한 영향

확장 및 장애 조치
이벤트 폭주: 가끔 발생, 심각한 영향
상황 파악 : 가끔 발생, 심각한 영향
네트워크/IT 종속성 : 자주 발생, 심각한 영향
문서화 : 가끔 발생, 심각한 영향
다루기 까다로운 장비 : 가끔 발생, 심각한 영향
직원의 기술력 및 교육 : 자주 발생

보안 정책
이벤트 폭주: 드물게 발생, 심각한 영향
상황 파악 : 가끔 발생, 심각한 영향
네트워크/IT 종속성 : 가끔 발생, 심각한 영향
문서화 : 가끔 발생, 심각한 영향
다루기 까다로운 장비 : 드물게 발생, 중대한 영향
직원의 기술력 및 교육 : 자주 발생, 심각한 영향
 

영향력 측정

기업은 이런 모든 문제에 대한 해법을 마련해야 한다. 

첫 번째 단계는 비슷한 방식으로 자체 네트워크 문제를 정리하는 것이다. 그리고 가장 큰 영향을 미치는 문제에 집중한다. 두 번째 단계는 관리를 '개선'한다거나 다른른 모호한 임무를 수행하기보다는 구체적인 문제를 해결하기 위한 툴과 절차를 찾는 것이다. 한계가 있는 툴을 여러 겹 쌓아두는 것은 그 자체로 문제가 될 수 있다. 세 번째 단계는 특정 문제를 염두에 두고 변경을 정당화했더라도 모든 변경 사항을 체계적으로 테스트하는 것이다. 한 가지 문제에 대한 해결책이 다른 문제를 악화시키는 경우는 드물지 않다.

노파심에 이야기하자면, 단순화의 함정에 빠지지 말기 바란다. '하향식', '인증' 또는 '단일 창'은 완벽하지 않으며, 경우에 따라 유용하지 않을 수도 있다. 문제는 상황에 따른 결과이며, 해결책은 기업의 운영 환경에 맞게 조정해야 한다. 시간을 들여 신중하게 분석하면 얼마나 빨리 성과를 낼 수 있는지 놀랄 것이다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.