2014.01.23

스토리지를 둘러싼 가상화의 머리아픈 진실

Steve Duplessie | Computerworld
서버 가상화는 데이터센터 내 시스템 배치 방식을 혁명적으로 바꿔놓았다. 이와 동시에 기이한 부를 창출해내며 큰 붐을 일으켰고, 또 파괴의 흔적을 남겼으며, 수많은 기업들의 파국적인 실패를 유발시키기도 했다.

분명 서버 가상화는 시스템 관리자들의 혈압을 높이고 스트레스성 탈모를 유발할 것이다.

장점: 서버 가상화는 단시간 내에 가상 기기를 온라인으로 옮겨올 수 있게 하고, 하드웨어상으로 활용도를 증가시키고, 지금껏 경험치 못한 모빌리티를 가능케 해준다.

단점: 서버 가상화는 아직 완전히 조사되지 않은 비즈니스로부터 온-디맨드(on-demand) 기대를 유발시켜왔다. 특히 이동 속성을 갖게 하는 가상 기기 워크로드를 위한 모빌리티는 워크로드뿐 아니라 같은 물리적 서버상의 다른 모든 워크로드에도 막대한 성능 문제를 일으킨다.

게다가 이는 확인할 수도 없어서, 전화기에 불이 나고 모두가 비명을 지르는 사태가 발생한 후에야 파악이 된다.

현재까지의 해결책: 가상화의 모든 효과를 포기하고 워크로드가 전이되지 않도록 한다. 그래서 어떤 자원이든 활용한다는 장점은 사라지고, 실제로는 더 많은 것(물리적, 가상적)들을 관리해야 하며, 그렇지 않으려면 더 많은 비용이 들어가게 된다.

문제: 스토리지, 간단히 얘기하면 스토리지 문제다. 정확히 보면, 변화하는 수요에 '대응하도록' 만들어지지 않은 스토리지 시스템의 99% 문제는 QoS(quality of service) 부재에서 기인한다.

스토리지는 보통 단순 계산이 가능하다. X 드라이브와 Y 컨트롤러가 있으면 초당 Z I/O가 나온다. 끝이다. 이는 X, Y, Z가 수요를 충족시키는 범위라면 다행이지만, 넘어가면 그걸로 끝장난다.

예전 2011년도에 우리는 애플리케이션이나 워크로드 등과 같은 애플리케이션 주변에 '고정'되어있는 시스템을 구축했었다. 그래서 바로 그 워크로드를 테스트해 보고 어떻게 작동할지 정확히 파악할 수 있었다. 변하는 것 없이 모든 게 고정이었으니까.

지난해 12월 새로운 가상화 질서 속에서 우리는 가상화 기기 내부에 익스체인지, 오라클 등의 워크로드를 구축해 이들을 물리적 기기에 올렸다. 우리는 스토리지가 작동하는지 확인했다. 또한 이를 '고정'되어 있는 것처럼 다뤘다.

성공적으로 작동했다. 그러다가 사건이 터졌다. 워크로드가 다른 곳으로 이동하거나 또 다른 워크로드가 갑자기 옮겨오기도 했는데, 이 워크로드가 모두 스토리지의 I/O 자원을 놓고 다투는 일을 발생했다. 스토리지는 성능이 제한되어 있기 때문에 이 워크로드들 사이에서 중재를 해야 했다. 그래서 양쪽 워크로드 상의 I/O 성능이 저하하게 된 것이다. 전화기에 불이 나는 시점이 바로 이 때다.

스토리지는 여전히 대부분 '멍청하기' 때문에, 문제를 해결하는 유일한 방법은 과거로 돌아가 수정된 시스템을 구축하는 수밖에 없다. 말도 안되게 들리지만 사실이다.

하지만 다른 가능성도 있다! 스토리지가 더 스마트해져야 한다. 일시적인 워크로드 처리를 위한 스토리지는 고정된 워크로드 처리를 위한 스토리지처럼 구축되어선 안된다. 좀더 매력적이어야 한다.

이상적으로는 실시간 워크로드 요구조건 변화에 따라 적응할 수 있는 스토리지 시스템이 필요하다. 성능이 따라주길 기대하는 게 아니라 성능을 보장해야 한다. 그래야 전화기에 불이 나지 않는다.

만약 물리적 기기 A에 워크로드 7개가 걸려 있을 때, 만약 당신이 증가된 작업을 처리하면서 더 중요한 앱을 우선시하는 I/O 능력이 없어 기기 작동이 멈춰버리고 그 7개 워크로드가 다른 곳으로 가버리면 누군가는 상당히 열받을 것이다. 아주 간단한 이야기다.

모든 게 완벽하다면 스토리지를 모두 플래시로 교체하면 될 것이다. 디스크가 없으면 실제적인 문제는 아마 발생하지 않을 것이다. 비록 QoS 없이 문제가 어떻게 악화될 수 있는지 보여줄 수도 있지만 말이다. 자신이 마음먹으면 달러를 얼마든지 찍을 수 있는 미국 정부가 아닌 이상 이런 시나리오는 상상에 불과하다. 디스크와 일반적인 스토리지 시스템을 써야 하기 때문에 이 문제들을 피할 수 없다.

만약 서버 가상화를 실행하고 다수의 혼합된 워크로드를 실행한다면, 이 문제는 절대로 피할 수 없을 것이다.

그러므로 이제부터 더 스마트한 스토리지를 찾아보도록 하자. 일반적인 운영에 필요한 것보다 훨씬 높은 고 I/O를 처리할 수 있고, 중요도에 따라 워크로드를 구분할 수 있고, 출력을 보장할 수 있는 스토리지가 필요하다. QoS도 필요하다.

알고 보면 이 문제는 아주 환상적인 일이다. 지난 20여 년간 I/O 문제를 두고 이렇게 골치가 아픈 적은 없었다. 지금까지 모든 스토리지는 고정 워크로드 상황에서 충분히 좋았다. 다만 모빌리티가 모든 것을 바꿔놓았다.

자신의 물리적 서버 상에 훌륭한 활용도를 제공하는 것은 좋다. 그러나 자신에게 몰려오는 워크로드들의 최소 요구조건을 충족하기 위한 최소 성능수준을 유지하는, 스토리지 활용은 악몽으로 전환된다. 스토리지는 서버보다 훨씬 비싸다는 점을 상기해보면, 풀기 어려운 난제가 아닐 수 없다.

만약 자신의 스토리지가 지능적 캐싱, 플래시, 디스크의 적절한 혼합을 활용해 스마트하고 스스로 최적화되고 충분히 세세한 단계까지 QoS를 제공한다면, 이런 걱정은 절대 없을 것이다.

업계 분들, 이런 것 좀 만들자. editor@itworld.co.kr


2014.01.23

스토리지를 둘러싼 가상화의 머리아픈 진실

Steve Duplessie | Computerworld
서버 가상화는 데이터센터 내 시스템 배치 방식을 혁명적으로 바꿔놓았다. 이와 동시에 기이한 부를 창출해내며 큰 붐을 일으켰고, 또 파괴의 흔적을 남겼으며, 수많은 기업들의 파국적인 실패를 유발시키기도 했다.

분명 서버 가상화는 시스템 관리자들의 혈압을 높이고 스트레스성 탈모를 유발할 것이다.

장점: 서버 가상화는 단시간 내에 가상 기기를 온라인으로 옮겨올 수 있게 하고, 하드웨어상으로 활용도를 증가시키고, 지금껏 경험치 못한 모빌리티를 가능케 해준다.

단점: 서버 가상화는 아직 완전히 조사되지 않은 비즈니스로부터 온-디맨드(on-demand) 기대를 유발시켜왔다. 특히 이동 속성을 갖게 하는 가상 기기 워크로드를 위한 모빌리티는 워크로드뿐 아니라 같은 물리적 서버상의 다른 모든 워크로드에도 막대한 성능 문제를 일으킨다.

게다가 이는 확인할 수도 없어서, 전화기에 불이 나고 모두가 비명을 지르는 사태가 발생한 후에야 파악이 된다.

현재까지의 해결책: 가상화의 모든 효과를 포기하고 워크로드가 전이되지 않도록 한다. 그래서 어떤 자원이든 활용한다는 장점은 사라지고, 실제로는 더 많은 것(물리적, 가상적)들을 관리해야 하며, 그렇지 않으려면 더 많은 비용이 들어가게 된다.

문제: 스토리지, 간단히 얘기하면 스토리지 문제다. 정확히 보면, 변화하는 수요에 '대응하도록' 만들어지지 않은 스토리지 시스템의 99% 문제는 QoS(quality of service) 부재에서 기인한다.

스토리지는 보통 단순 계산이 가능하다. X 드라이브와 Y 컨트롤러가 있으면 초당 Z I/O가 나온다. 끝이다. 이는 X, Y, Z가 수요를 충족시키는 범위라면 다행이지만, 넘어가면 그걸로 끝장난다.

예전 2011년도에 우리는 애플리케이션이나 워크로드 등과 같은 애플리케이션 주변에 '고정'되어있는 시스템을 구축했었다. 그래서 바로 그 워크로드를 테스트해 보고 어떻게 작동할지 정확히 파악할 수 있었다. 변하는 것 없이 모든 게 고정이었으니까.

지난해 12월 새로운 가상화 질서 속에서 우리는 가상화 기기 내부에 익스체인지, 오라클 등의 워크로드를 구축해 이들을 물리적 기기에 올렸다. 우리는 스토리지가 작동하는지 확인했다. 또한 이를 '고정'되어 있는 것처럼 다뤘다.

성공적으로 작동했다. 그러다가 사건이 터졌다. 워크로드가 다른 곳으로 이동하거나 또 다른 워크로드가 갑자기 옮겨오기도 했는데, 이 워크로드가 모두 스토리지의 I/O 자원을 놓고 다투는 일을 발생했다. 스토리지는 성능이 제한되어 있기 때문에 이 워크로드들 사이에서 중재를 해야 했다. 그래서 양쪽 워크로드 상의 I/O 성능이 저하하게 된 것이다. 전화기에 불이 나는 시점이 바로 이 때다.

스토리지는 여전히 대부분 '멍청하기' 때문에, 문제를 해결하는 유일한 방법은 과거로 돌아가 수정된 시스템을 구축하는 수밖에 없다. 말도 안되게 들리지만 사실이다.

하지만 다른 가능성도 있다! 스토리지가 더 스마트해져야 한다. 일시적인 워크로드 처리를 위한 스토리지는 고정된 워크로드 처리를 위한 스토리지처럼 구축되어선 안된다. 좀더 매력적이어야 한다.

이상적으로는 실시간 워크로드 요구조건 변화에 따라 적응할 수 있는 스토리지 시스템이 필요하다. 성능이 따라주길 기대하는 게 아니라 성능을 보장해야 한다. 그래야 전화기에 불이 나지 않는다.

만약 물리적 기기 A에 워크로드 7개가 걸려 있을 때, 만약 당신이 증가된 작업을 처리하면서 더 중요한 앱을 우선시하는 I/O 능력이 없어 기기 작동이 멈춰버리고 그 7개 워크로드가 다른 곳으로 가버리면 누군가는 상당히 열받을 것이다. 아주 간단한 이야기다.

모든 게 완벽하다면 스토리지를 모두 플래시로 교체하면 될 것이다. 디스크가 없으면 실제적인 문제는 아마 발생하지 않을 것이다. 비록 QoS 없이 문제가 어떻게 악화될 수 있는지 보여줄 수도 있지만 말이다. 자신이 마음먹으면 달러를 얼마든지 찍을 수 있는 미국 정부가 아닌 이상 이런 시나리오는 상상에 불과하다. 디스크와 일반적인 스토리지 시스템을 써야 하기 때문에 이 문제들을 피할 수 없다.

만약 서버 가상화를 실행하고 다수의 혼합된 워크로드를 실행한다면, 이 문제는 절대로 피할 수 없을 것이다.

그러므로 이제부터 더 스마트한 스토리지를 찾아보도록 하자. 일반적인 운영에 필요한 것보다 훨씬 높은 고 I/O를 처리할 수 있고, 중요도에 따라 워크로드를 구분할 수 있고, 출력을 보장할 수 있는 스토리지가 필요하다. QoS도 필요하다.

알고 보면 이 문제는 아주 환상적인 일이다. 지난 20여 년간 I/O 문제를 두고 이렇게 골치가 아픈 적은 없었다. 지금까지 모든 스토리지는 고정 워크로드 상황에서 충분히 좋았다. 다만 모빌리티가 모든 것을 바꿔놓았다.

자신의 물리적 서버 상에 훌륭한 활용도를 제공하는 것은 좋다. 그러나 자신에게 몰려오는 워크로드들의 최소 요구조건을 충족하기 위한 최소 성능수준을 유지하는, 스토리지 활용은 악몽으로 전환된다. 스토리지는 서버보다 훨씬 비싸다는 점을 상기해보면, 풀기 어려운 난제가 아닐 수 없다.

만약 자신의 스토리지가 지능적 캐싱, 플래시, 디스크의 적절한 혼합을 활용해 스마트하고 스스로 최적화되고 충분히 세세한 단계까지 QoS를 제공한다면, 이런 걱정은 절대 없을 것이다.

업계 분들, 이런 것 좀 만들자. editor@itworld.co.kr


X