2019.11.26

데이터센터가 AI의 전력 소비에 대비하는 8가지 방안

Andy Patrizio | Network World
기업 환경에 AI가 본격적으로 확산되면서 데이터센터 전력 소비량 역시 급증하고 있다. AI는 많은 일을 할 수 있지만, 전력 효율성은 아니다.
 
ⓒ GettyImagesBank

전형적인 기업 애플리케이션을 구동하는 데이터센터의 평균적인 랙당 전력 소비량은 7kW이다. 하지만 데이터센터 기관인 AFCOM에 따르면, AI 애플리케이션용 데이터센터는 랙당 30kW 이상을 사용하는 것이 보통이다. AI는 더 많은 프로세서 활용률을 요구하고, 프로세서 자체, 특히 GPU는 전력 소비량이 많다. 예를 들어, 엔비디아의 GPU는 여러 가지 명령을 처리하는 데 있어서 CPU보다 훨씬 빠르지만, 칩당 전력 소비 역시 2배나 된다. 문제를 더 복잡하게 만드는 것은 많은 데이터센터가 이미 전력에 제약이 많다는 것.
 
냉각 역시 문제다. AI 지향적인 서버는 프로세서 집적도가 높은데, 이는 한 곳에 더 많은 칩을 욱여넣었다는 의미이다. 당연히 훨씬 더 뜨거워진다. 높은 직접도와 활용률로 인해 전형적인 백오피스 서버와 비교해 냉각에 대한 요구 역시 증가한다. 냉각 요구사항이 높아지면 이에 따른 전력 소비 역시 늘어난다.

비즈니스 경쟁력을 위해 AI를 도입해야 하지만, 기존 시설의 전력 용량이 이런 고밀도 인프라를 감당하기에 충분하지 않다면 어떻게 해야 할 것인가? 몇 가지 대안을 소개한다.
 

1. 수랭 시스템 

랙당 소비 전력이 15kW를 넘으면 보통 공랭 시스템은 실효성을 잃는다. 하지만 기업용 수랭 시스템 제조업체인 CoolIT에 따르면, 물은 공기보다 열 용량이 3,000배나 높다. 이 때문에 서버 랙 제조업체들은 액체용 파이프를 캐비닛에 추가해 방열판에 팬 대신 이들 파이프를 연결해 왔다.

데이터센터 개발 및 운영업체인 사베이(Sabey)의 데이터센터 운영 담당 수석 부사장 존 새서는 “수랭 시스템은 분명 집적도가 높은 시스템을 위한 아주 훌륭한 선택이다”라며, “어지러운 공기 흐름 문제도 해결한다. 물은 공기보다 더 많은 열을 식힐 수 있고, 이를 파이프를 통해 보낼 수 있다. 많은 HPC 환경이 수랭 시스템을 사용한다”라고 설명했다.

물론 대부분 데이터센터는 공랭 시스템을 기본적으로 사용한다. 따라서 수랭 시스템은 초기 투자가 필요하다. 새서는 “하지만 오히려 더 합리적인 해법이 될 수 있고, 특히 기업이 AI를 도입하기로 했다면 더욱 더 그렇다”라고 덧붙였다.
 

2. AI 워크로드를 낮은 정확도로 실행

기존 데이터센터도 AI 연산 워크로드를 처리할 수도 있지만, 제한적인 방법으로만 가능하다. 전부는 아니라도 많은 워크로드를 64비트 배정도가 아니라 절반이나 1/4 정도의 정확도로 운영할 수 있다. 하이페리온 리서치의 수석 부사장 스티브 콘웨이는 “어떤 문제는 절반 정도의 정확도로 충분하다. 정확도를 낮추면 필요한 데이터도 줄어든다”고 말했다.

배정도 부동소수점 연산은 과학 연구에 주로 필요한 방식으로, 흔히 분자 단위 수준에서 이루어진다. 배정도는 AI 학습이나 딥러닝 모델의 추론에 일반적으로 사용되지 않는데, 그럴 필요가 없기 때문이다. 심지어 엔비디아도 심층 신경망에서 단정도 또는 반단정도 연산을 사용할 것을 옹호한다.
 

3. AI 격납 영역 구축

AI가 비즈니스의 일부가 되겠지만 전부는 아니다. 이는 데이터센터도 마찬가지다. 데이터센터 구축 및 운영업체인 파이브 나인 디지털의 파트너 더그 홀리지는 “새로 구축하는 시설은 일부 영역을 높은 전력 사용에 할당하는 방안을 고민하고 있다”며, “모든 시설을 높은 전력 소비에 맞출 필요는 없다. 전력 소비가 적은 다른 애플리케이션이 있기 때문이다”라고 강조했다.

먼저 전력회사가 공급을 늘릴 수 있는지 확인해야 한다. 그 다음에는 엔지니어가 데이터센터의 어느 부분에 고집적 장비를 배치할지 평가해야 한다. 워크로드 요구사항에 따라 솔루션은 달라진다. HAC(Hot Aisle Containment) 시스템이 될 수도 있고, 수랭 시스템이 될 수도 있다. 홀리지는 “모든 데이터센터가 다르므로 만능 솔루션을 찾기는 어렵다”라고 덧붙였다.
 

4. AI 시스템의 완전 분산 배치

다른 방법은 AI 시스템을 여러 랙으로 분산 배치하는 것이다. QTS의 혁신 담당 임원 데이빗 맥콜은 “애플리케이션 대부분은 집적도가 높지 않다. 8~10kW, 많아야 15kW를 소비한다. 이 정도는 공랭 시스템으로 처리할 수 있다”고 지적했다.

최적화된 이기종 환경에서 코로케이션 서비스 업체는 HPC나 AI 환경을 호스팅하는 한두 랙을 배치하고 나머지는 데이터베이스나 백오피스 애플리케이션 같은 일반 애플리케이션을 호스팅하는 데 사용하기도 한다. AI 시스템을 분산 배치하면 이들 랙은 기존 5kW 정도의 전력 소비가 12~15kW까지 증가하겠지만, 이 정도는 공랭 시스템으로 처리할 수 있다는 것이 맥콜의 설명이다.
 

5. 뜨거운 공기 흐름의 제어

표준 데이터센터 배치는 열복도/냉복도(hot aisle/cold aisle)이다. 캐비닛을 서로 다른 줄로 배치해 찬 공기는 서로 마주보는 복도로 유입되고, 뜨거운 공기는 뒤쪽 복도로 배출된다. 이 구성은 효과적이지만, 관리자가 서버 작업을 위해 캐비닛 뒤쪽으로 접근하기가 불편하다.

또 다른 문제는 공기의 흐름이 어지럽다는 것이다. 전력은 전선을 따라 움직이기 때문에 모형을 만들기도 쉽고 통제하기도 쉽지만, 공기가 어디로 흘러갈지 통제하기는 어렵다.



2019.11.26

데이터센터가 AI의 전력 소비에 대비하는 8가지 방안

Andy Patrizio | Network World
기업 환경에 AI가 본격적으로 확산되면서 데이터센터 전력 소비량 역시 급증하고 있다. AI는 많은 일을 할 수 있지만, 전력 효율성은 아니다.
 
ⓒ GettyImagesBank

전형적인 기업 애플리케이션을 구동하는 데이터센터의 평균적인 랙당 전력 소비량은 7kW이다. 하지만 데이터센터 기관인 AFCOM에 따르면, AI 애플리케이션용 데이터센터는 랙당 30kW 이상을 사용하는 것이 보통이다. AI는 더 많은 프로세서 활용률을 요구하고, 프로세서 자체, 특히 GPU는 전력 소비량이 많다. 예를 들어, 엔비디아의 GPU는 여러 가지 명령을 처리하는 데 있어서 CPU보다 훨씬 빠르지만, 칩당 전력 소비 역시 2배나 된다. 문제를 더 복잡하게 만드는 것은 많은 데이터센터가 이미 전력에 제약이 많다는 것.
 
냉각 역시 문제다. AI 지향적인 서버는 프로세서 집적도가 높은데, 이는 한 곳에 더 많은 칩을 욱여넣었다는 의미이다. 당연히 훨씬 더 뜨거워진다. 높은 직접도와 활용률로 인해 전형적인 백오피스 서버와 비교해 냉각에 대한 요구 역시 증가한다. 냉각 요구사항이 높아지면 이에 따른 전력 소비 역시 늘어난다.

비즈니스 경쟁력을 위해 AI를 도입해야 하지만, 기존 시설의 전력 용량이 이런 고밀도 인프라를 감당하기에 충분하지 않다면 어떻게 해야 할 것인가? 몇 가지 대안을 소개한다.
 

1. 수랭 시스템 

랙당 소비 전력이 15kW를 넘으면 보통 공랭 시스템은 실효성을 잃는다. 하지만 기업용 수랭 시스템 제조업체인 CoolIT에 따르면, 물은 공기보다 열 용량이 3,000배나 높다. 이 때문에 서버 랙 제조업체들은 액체용 파이프를 캐비닛에 추가해 방열판에 팬 대신 이들 파이프를 연결해 왔다.

데이터센터 개발 및 운영업체인 사베이(Sabey)의 데이터센터 운영 담당 수석 부사장 존 새서는 “수랭 시스템은 분명 집적도가 높은 시스템을 위한 아주 훌륭한 선택이다”라며, “어지러운 공기 흐름 문제도 해결한다. 물은 공기보다 더 많은 열을 식힐 수 있고, 이를 파이프를 통해 보낼 수 있다. 많은 HPC 환경이 수랭 시스템을 사용한다”라고 설명했다.

물론 대부분 데이터센터는 공랭 시스템을 기본적으로 사용한다. 따라서 수랭 시스템은 초기 투자가 필요하다. 새서는 “하지만 오히려 더 합리적인 해법이 될 수 있고, 특히 기업이 AI를 도입하기로 했다면 더욱 더 그렇다”라고 덧붙였다.
 

2. AI 워크로드를 낮은 정확도로 실행

기존 데이터센터도 AI 연산 워크로드를 처리할 수도 있지만, 제한적인 방법으로만 가능하다. 전부는 아니라도 많은 워크로드를 64비트 배정도가 아니라 절반이나 1/4 정도의 정확도로 운영할 수 있다. 하이페리온 리서치의 수석 부사장 스티브 콘웨이는 “어떤 문제는 절반 정도의 정확도로 충분하다. 정확도를 낮추면 필요한 데이터도 줄어든다”고 말했다.

배정도 부동소수점 연산은 과학 연구에 주로 필요한 방식으로, 흔히 분자 단위 수준에서 이루어진다. 배정도는 AI 학습이나 딥러닝 모델의 추론에 일반적으로 사용되지 않는데, 그럴 필요가 없기 때문이다. 심지어 엔비디아도 심층 신경망에서 단정도 또는 반단정도 연산을 사용할 것을 옹호한다.
 

3. AI 격납 영역 구축

AI가 비즈니스의 일부가 되겠지만 전부는 아니다. 이는 데이터센터도 마찬가지다. 데이터센터 구축 및 운영업체인 파이브 나인 디지털의 파트너 더그 홀리지는 “새로 구축하는 시설은 일부 영역을 높은 전력 사용에 할당하는 방안을 고민하고 있다”며, “모든 시설을 높은 전력 소비에 맞출 필요는 없다. 전력 소비가 적은 다른 애플리케이션이 있기 때문이다”라고 강조했다.

먼저 전력회사가 공급을 늘릴 수 있는지 확인해야 한다. 그 다음에는 엔지니어가 데이터센터의 어느 부분에 고집적 장비를 배치할지 평가해야 한다. 워크로드 요구사항에 따라 솔루션은 달라진다. HAC(Hot Aisle Containment) 시스템이 될 수도 있고, 수랭 시스템이 될 수도 있다. 홀리지는 “모든 데이터센터가 다르므로 만능 솔루션을 찾기는 어렵다”라고 덧붙였다.
 

4. AI 시스템의 완전 분산 배치

다른 방법은 AI 시스템을 여러 랙으로 분산 배치하는 것이다. QTS의 혁신 담당 임원 데이빗 맥콜은 “애플리케이션 대부분은 집적도가 높지 않다. 8~10kW, 많아야 15kW를 소비한다. 이 정도는 공랭 시스템으로 처리할 수 있다”고 지적했다.

최적화된 이기종 환경에서 코로케이션 서비스 업체는 HPC나 AI 환경을 호스팅하는 한두 랙을 배치하고 나머지는 데이터베이스나 백오피스 애플리케이션 같은 일반 애플리케이션을 호스팅하는 데 사용하기도 한다. AI 시스템을 분산 배치하면 이들 랙은 기존 5kW 정도의 전력 소비가 12~15kW까지 증가하겠지만, 이 정도는 공랭 시스템으로 처리할 수 있다는 것이 맥콜의 설명이다.
 

5. 뜨거운 공기 흐름의 제어

표준 데이터센터 배치는 열복도/냉복도(hot aisle/cold aisle)이다. 캐비닛을 서로 다른 줄로 배치해 찬 공기는 서로 마주보는 복도로 유입되고, 뜨거운 공기는 뒤쪽 복도로 배출된다. 이 구성은 효과적이지만, 관리자가 서버 작업을 위해 캐비닛 뒤쪽으로 접근하기가 불편하다.

또 다른 문제는 공기의 흐름이 어지럽다는 것이다. 전력은 전선을 따라 움직이기 때문에 모형을 만들기도 쉽고 통제하기도 쉽지만, 공기가 어디로 흘러갈지 통제하기는 어렵다.



X