데이터센터 / 클라우드

현대 데이터센터의 숨겨진 위험과 2가지 교훈

Matt Prigge | InfoWorld 2013.07.10


다시 말해서, VSM이 VEM이 활성화되지 않으면 접속할 수 없는 스토리지상에 위치하는 바람에 VSM이 시작되지 않았던 것이고, VSM이 활성화되지 않아서 VEM도 활성화되지 않았던 것이다. 이 문제가 고쳐질 때까지 VSM이 재기동되지 않았다. 그리고 이들이 정상화될 때까지 다른 가상머신 역시 사용할 수 없는 상태였다.

프론트 엔드 NIC를 복잡하게 활용하여 스토리지에 접속함으로써 그 문제가 극복된 후에도 여전히 다른 문제들이 있었다. 비록 v센터 가상머신이 1Gbps NIC 상의 기본 v스위치 상에 위치했었지만(그래서 넥서스 1000V에 의존하지 않았음), 이 가상머신이 의존하던 오라클 데이터베이스 서버가 1000V에 의존하고 있었다. 게다가 해당 가상머신은 10Gbps NIC로의 접속을 필요로 하는 프로덕션 목적으로 사용되는 데이터베이스를 담고 있었기 때문에 1Gbps NIC로 이동할 수도 없었다. 비록 복구를 위해 일시적으로 재구성되었지만, 데이터베이스는 결국 다른 가상머신으로 이전시켜야 했다.

특정 기술에 관계없이 얻을 수 있는 교훈
이 사건에서 넥서스 1000V를 프러덕션 환경에 구성할 때 피해야 할 몇 가지 기본 팁을 깨닫게 되었다. 실제로 넥서스 1000V와 v센터 요소를 관리 환경 외부에 실행함으로써 이 모든 문제를 피하는 많은 방법이 존재한다. 그러나 1000V 스위치를 다뤄본 여부와 상관없이, 모두 여기에서 더 큰 교훈을 얻을 수 있다.

우선 프로덕션 단계에 들어가기에 앞서 배치한 구성을 체계적이고 면밀히 검토하는 것이 무엇보다도 중요하다는 교훈이 있다. “그거 내가 나중에 고칠게”라고 말하기는 아주 쉽지만, 쉴 틈 없이 돌아가는 요즘 IT에서 과연 실제로 고칠 여유가 생길까?

이 사건 이후 필자는 프로젝트 상에서 작업할 때 취할 단축키 목록을 작성하고 프로젝트가 끝난 후 수정할 때마다 지워버리고 있다. 그렇지 않으면, 알아채지 못하는 사이에 썩은 이스터 에그(Easter egg)를 남겨두고 방치해두기 너무나도 쉽다.

두 번째 교훈은 테스트가 아주 중요하다는 점이다. 프로덕션 환경에 적용하기 전에 전면적으로 인프라를 끄고 켜는 테스트를 진행해야 한다. 어느 시점이 지나면, 테스트를 위해 전체 시스템을 중단시킬 수 없게 된다! 물론 배치 단계에서 이런 일이 시간 낭비처럼 보일 수도 있지만, 전원 끄기 테스트로 피할 수 있었던 문제 때문에 휴일에도 출근하여 문제 해결에 매달려본 모든 이들은 이를 시간 낭비라고 보지 않을 것이다.

결국 모든 것은 얼마나 주의를 기울이냐에 달려있다. IT에서 주의를 기울이는 일은 예나 지금이나 항상 중요했지만, 오늘날의 더욱 복잡하고 더욱 상호 의존적인 인프라 환경에서 주의력 상실의 여파는 과거보다 크게 증가했다. 간단한 실수가 단일 부품이 아니라 전체 인프라를 마비시킬 확률이 예전보다 훨씬 커졌다. 데이터센터 인프라가 계속해서 모호해지고 수렴할수록, 이 문제는 점점 악화될 것이다.  editor@itworld.co.kr

Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.