2013.07.10

현대 데이터센터의 숨겨진 위험과 2가지 교훈

Matt Prigge | InfoWorld

현대 인프라 기술은 강력해진만큼 더 복잡해지고 독립적으로 성장했다. 새로운 기술이 IT 속의 삶을 더 편하고 효율적으로 바꿔준 만큼 분류가 어려운 새로운 유형의 실패들도 생겨났다. 이들 중 몇몇은 감지될 때까지 몇 달에서 몇 년간이나 드러나지 않은 채 휴면상태로 존재한다.

과거의 전형적인 기업 데이터센터는 다수의 서버와 일부 TOR(top-of-rack) 또는 EOR(end-of-rack) 네트워크 스위치 장비, 그리고 몇몇 대형 스토리지 어레이로 구성되어 있었다. 이런 유형의 환경에서 종속 관계가 분명하다. 서버는 네트워크와 스토리지의 가용성에 의존하게 된다. 하지만 네트워크와 스토리지(그리고 관련 네트워크)는 자체 장비를 넘어서는 외부에 대한 의존도가 낮다.

오늘날은 이런 양상이 다소 변화했다. 여전히 서버가 있지만, 블레이드 섀시에 탑재된 블레이드서버 형태로 구성할 수 있다. 여기에는 LAN과 스토리지 양쪽으로의 접속을 가능하게 하는 컨버지드 네트워크 패브릭이 내장되어 있다. 그리고 스토리지는 패브릭에 직접 연결되어 있다.

여기에 더해 컨버지드 네트워크의 몇몇 핵심적인 기능은 서버 블레이드 상에 소프트웨어로 구동되는 형태로 구현할 수도 있다. 더욱 복잡하게도 만약 IP 기반 스토리지가 사용될 경우, 그 스토리지로의 단순한 접속은 작동하는 나머지 모든 것들에 의해 결정된다.

실제 사례
비록 이런 종류의 다양한 문제들을 보아 왔지만, VM웨어 v스피어 환경 내 시스코 넥서스 1000V 가상 스위치 관련된 사례가 가장 좋은 예가 될 것이다.

솔직히 말해 필자는 소프트웨어 정의 네트워킹(software-defined networking)의 대단한 팬이며, 비록 넥서스 1000V가 완벽하거나 유일한 해답은 아니지만 훌륭한 제품으로 직접 여러 차례 사용해왔다. 그러나 넥서스 1000V는 물리 스위치와는 상당히 다르며, 여러 면에서 외부와 내부 의존성을 지니고 있다.

이번 사례에서 v스피어 호스트는 프론트 엔드 관리 트래픽에 두 개의 1Gbps NIC와 가상머신 네트워크 접속과 기업의 NFS 기반 스토리지 접속을 위해 두 개의 전통적인 (비-nPAR/CAN) 10Gbps NIC로 구성했다.

이런 구성에 익숙하지 않은 이들을 위해 설명하자면, 넥서스 1000V에는 두 개의 기본적 요소가 있다. VSM(Virtual Supervisor Module)과 VEM(virtual Ethernet modules)이 그것인데, VSM은 모듈러 스위치에서 감독 모듈 역할을 수행하고, VEM은 라인 카드 역할을 담당한다. 제어와 관리 플레인은 VSM에 실행되지만, 데이터 플레인은 거의 VEM에 의해서만 스위칭된다.

실용적인 관점에서, VSM은 호스트 상에서 실행되는 가상머신 어플라이언스로 (고가용성 목적을 위한 선택적 제2의 어플라이언스와 함께) 시행된다. VEM은 각각의 호스트 상 v스피어 하이퍼바이저에 설치되는 소프트웨어 모듈이다. 물론 VSM과 VEM 사이의 통신은 VEM이 VSM의 지시 없이는 무엇을 해야 할지, 어떻게 구성되어야 할지에 대해 알 수 없기 때문에 절대적으로 중요하다. 여기에 분명한 의존성이 존재한다. 또한 VSM과 v스피어 호스트의 활동을 조정하는 VM웨어 v센터(vCenter) 사이에도 강력한 의존성이 나타난다.

VSM과 VEM 사이의 통신이 없으면, VEM은 트래픽을 어떻게 전환할지 알 수 없게 된다. 그리고 VSM과 v센터 사이의 통신이 없으면, 가상머신 네트워킹 구성 변화가 (어느 쪽에서 시작되건 상관없이) 일어날 수 없게 된다. 이는 한 쌍의 외부 물리 스위치보다 훨씬 복잡하지만, 관리할 수 있는 수준으로 보인다.

이 배치에서 필자는 몇 가지 치명적인 실수를 저질렀는데 바로잡기에 너무 늦기 전까지 아무도 이를 알아차리지 못했다. 휴일기간 중 전 시설에 걸친 정전 사태가 일어났을 때 비로소 그 잘못이 발견되었다. 전기 공급이 복구된지 얼마 되지 않아 무언가 제대로 작동하지 않고 있다는 점이 분명해졌다. 그 상황에서 문제가 무엇인지 파악하고 이를 고치기 위해 8시간이 소요되었다.

그 와중에 의존성 추적과 계획에 있어서의 두 가지 치명적인 실수가 원인으로 드러났다. 첫 번째 실수는 넥서스 1000V를 v스피어 서버 내에서 10Gbps NIC를 작동하도록 한 것이었는데, 동일한 NIC는 가상머신이 저장된 스토리지로의 접속에도 사용된다. 잠시 동안 주의력이 떨어져서였는지, 필자는 인프라를 구축할 때 넥서스 1000V VSM을 SAN 스토리지 상에 임포트하고 나중에 로컬 스토리지에 다시 이동시키는 것을 완전히 잊어버렸다.



2013.07.10

현대 데이터센터의 숨겨진 위험과 2가지 교훈

Matt Prigge | InfoWorld

현대 인프라 기술은 강력해진만큼 더 복잡해지고 독립적으로 성장했다. 새로운 기술이 IT 속의 삶을 더 편하고 효율적으로 바꿔준 만큼 분류가 어려운 새로운 유형의 실패들도 생겨났다. 이들 중 몇몇은 감지될 때까지 몇 달에서 몇 년간이나 드러나지 않은 채 휴면상태로 존재한다.

과거의 전형적인 기업 데이터센터는 다수의 서버와 일부 TOR(top-of-rack) 또는 EOR(end-of-rack) 네트워크 스위치 장비, 그리고 몇몇 대형 스토리지 어레이로 구성되어 있었다. 이런 유형의 환경에서 종속 관계가 분명하다. 서버는 네트워크와 스토리지의 가용성에 의존하게 된다. 하지만 네트워크와 스토리지(그리고 관련 네트워크)는 자체 장비를 넘어서는 외부에 대한 의존도가 낮다.

오늘날은 이런 양상이 다소 변화했다. 여전히 서버가 있지만, 블레이드 섀시에 탑재된 블레이드서버 형태로 구성할 수 있다. 여기에는 LAN과 스토리지 양쪽으로의 접속을 가능하게 하는 컨버지드 네트워크 패브릭이 내장되어 있다. 그리고 스토리지는 패브릭에 직접 연결되어 있다.

여기에 더해 컨버지드 네트워크의 몇몇 핵심적인 기능은 서버 블레이드 상에 소프트웨어로 구동되는 형태로 구현할 수도 있다. 더욱 복잡하게도 만약 IP 기반 스토리지가 사용될 경우, 그 스토리지로의 단순한 접속은 작동하는 나머지 모든 것들에 의해 결정된다.

실제 사례
비록 이런 종류의 다양한 문제들을 보아 왔지만, VM웨어 v스피어 환경 내 시스코 넥서스 1000V 가상 스위치 관련된 사례가 가장 좋은 예가 될 것이다.

솔직히 말해 필자는 소프트웨어 정의 네트워킹(software-defined networking)의 대단한 팬이며, 비록 넥서스 1000V가 완벽하거나 유일한 해답은 아니지만 훌륭한 제품으로 직접 여러 차례 사용해왔다. 그러나 넥서스 1000V는 물리 스위치와는 상당히 다르며, 여러 면에서 외부와 내부 의존성을 지니고 있다.

이번 사례에서 v스피어 호스트는 프론트 엔드 관리 트래픽에 두 개의 1Gbps NIC와 가상머신 네트워크 접속과 기업의 NFS 기반 스토리지 접속을 위해 두 개의 전통적인 (비-nPAR/CAN) 10Gbps NIC로 구성했다.

이런 구성에 익숙하지 않은 이들을 위해 설명하자면, 넥서스 1000V에는 두 개의 기본적 요소가 있다. VSM(Virtual Supervisor Module)과 VEM(virtual Ethernet modules)이 그것인데, VSM은 모듈러 스위치에서 감독 모듈 역할을 수행하고, VEM은 라인 카드 역할을 담당한다. 제어와 관리 플레인은 VSM에 실행되지만, 데이터 플레인은 거의 VEM에 의해서만 스위칭된다.

실용적인 관점에서, VSM은 호스트 상에서 실행되는 가상머신 어플라이언스로 (고가용성 목적을 위한 선택적 제2의 어플라이언스와 함께) 시행된다. VEM은 각각의 호스트 상 v스피어 하이퍼바이저에 설치되는 소프트웨어 모듈이다. 물론 VSM과 VEM 사이의 통신은 VEM이 VSM의 지시 없이는 무엇을 해야 할지, 어떻게 구성되어야 할지에 대해 알 수 없기 때문에 절대적으로 중요하다. 여기에 분명한 의존성이 존재한다. 또한 VSM과 v스피어 호스트의 활동을 조정하는 VM웨어 v센터(vCenter) 사이에도 강력한 의존성이 나타난다.

VSM과 VEM 사이의 통신이 없으면, VEM은 트래픽을 어떻게 전환할지 알 수 없게 된다. 그리고 VSM과 v센터 사이의 통신이 없으면, 가상머신 네트워킹 구성 변화가 (어느 쪽에서 시작되건 상관없이) 일어날 수 없게 된다. 이는 한 쌍의 외부 물리 스위치보다 훨씬 복잡하지만, 관리할 수 있는 수준으로 보인다.

이 배치에서 필자는 몇 가지 치명적인 실수를 저질렀는데 바로잡기에 너무 늦기 전까지 아무도 이를 알아차리지 못했다. 휴일기간 중 전 시설에 걸친 정전 사태가 일어났을 때 비로소 그 잘못이 발견되었다. 전기 공급이 복구된지 얼마 되지 않아 무언가 제대로 작동하지 않고 있다는 점이 분명해졌다. 그 상황에서 문제가 무엇인지 파악하고 이를 고치기 위해 8시간이 소요되었다.

그 와중에 의존성 추적과 계획에 있어서의 두 가지 치명적인 실수가 원인으로 드러났다. 첫 번째 실수는 넥서스 1000V를 v스피어 서버 내에서 10Gbps NIC를 작동하도록 한 것이었는데, 동일한 NIC는 가상머신이 저장된 스토리지로의 접속에도 사용된다. 잠시 동안 주의력이 떨어져서였는지, 필자는 인프라를 구축할 때 넥서스 1000V VSM을 SAN 스토리지 상에 임포트하고 나중에 로컬 스토리지에 다시 이동시키는 것을 완전히 잊어버렸다.



X