AIㆍML / 네트워크

"울트라 이더넷 만든다" AI 인프라용 네트워크 표준 위해 컨소시엄 결성

Michael Cooney | Network World 2023.07.24
리눅스재단의 지원을 받는 울트라 이더넷 컨소시엄은 이더넷 네트워크의 규모, 안정성 및 신뢰성을 높여 AI의 고성능 네트워킹 요구 사항을 충족하는 것을 목표로 한다.

AI 워크로드로 인해 네트워크 성능과 용량에 대한 요구가 날로 증가하는 가운데, 기존 이더넷의 용량과 속도를 AI에 필요한 수준으로 향상시키기 위해 주요 네트워크 솔루션 업체가 모였다. AMD, 아리스타, 브로드컴, 시스코, 에비던트, HPE, 인텔, 메타, 마이크로소프트는 울트라 이더넷 컨소시엄(Ultra Ethernet Consortium, UEC)을 발표했다. 리눅스재단이 주관하는 UEC는 이더넷의 물리 계층, 링크 계층, 전송 계층, 그리고 소프트웨어 계층 개발을 진행하고 있다.
 
ⓒ Getty Images Bank

이더넷은 올해 50주년을 맞이했다. 유연성과 적응성이 특징인 이더넷은 AI 인프라를 지원하는 데도 결정적인 역할을 맡게 될 것이다. 하지만 기존 네트워크 상호연결로는 AI의 요구를 만족하는 데 필요한 성능과 규모, 대역폭을 제공하지 못한다는 우려가 있으며, 컨소시엄은 이런 우려를 해결하는 것을 목표로 한다.

아리스타 CEO 제이슈리 울랄은 새로운 컨소시엄에 관한 블로그 포스트를 통해 "AI 워크로드는 데이터 및 컴퓨팅 집약적이기 때문에 네트워크에 대한 요구가 높다. 워크로드가 너무 커서 매개변수가 수천 개의 프로세서에 분산되어 있다. GPT-3, 친칠라, PALM과 같은 대규모 언어 모델(LLM)은 물론, DLRM(Deep Learning Recommendation) 및 DHEN(Deep and Hierarchical Ensemble Network) 같은 추천 시스템은 연산에 관련된 다른 프로세서와 '매개 변수'를 공유하는 수천 개의 GPU 클러스터를 이용해 학습한다"라며, "데이터의 양이 매우 방대하기 때문에 네트워크의 성능 저하나 혼잡으로 인한 속도 저하가 AI 애플리케이션 성능에 치명적인 영향을 미칠 수 있다"고 설명했다.

지금까지 프로세서 코어와 메모리를 연결하는 유일한 옵션은 인피니밴드, PCI Express, 이더넷을 통한 원격 직접 메모리 액세스 및 컴퓨팅 클러스터를 오프로드와 연결하는 기타 프로토콜과 같은 상호 연결이었지만, AI 워크로드의 요구를 만족하기에는 한계가 있다.

울랄은 "울트라 이더넷 컨소시엄의 회원사는 이제 RDMA((Remote Direct Memory Access)의 한계를 다시 생각하고 대체해야 할 때라고 생각한다. 수십 년 전 IBTA(InfiniBand Trade Association)에서 정의한 RDMA는 매우 까다로운 AI/ML 네트워크 트래픽에서 그 한계를 드러내고 있다. RDMA는 데이터를 큰 흐름의 덩어리로 전송하는데, 이 때문에 링크의 불균형과 과부하를 유발할 수 있다"라고 지적한다.

또 "이제 새로운 애플리케이션을 위해 RDMA를 지원하는 최신 전송 프로토콜을 구축하기 위해 백지 상태에서 시작해야 할 때이다"라며, "UET(Ultra Ethernet Transport) 프로토콜은 이더넷/IP의 장점을 통합하는 동시에 애플리케이션, 엔드포인트 및 프로세스를 위한 AI 네트워크의 규모 문제를 해결하고 개방형 표준 및 다중 공급업체 상호운용성이라는 목표를 유지할 것"이라고 강조했다.

UEC는 백서를 통해 다음과 같은 핵심 기술과 기능을 갖춘 이더넷 사양을 발전시킬 것이라고 밝혔다:
 
  • AI 워크플로우가 동시에 목적지에 액세스할 수 있도록 하는 다중 경로 및 패킷 스프레잉(Packet Praying).
  • 이더넷 링크가 최적의 균형을 이루도록 하는 유연한 전송 순서 지정(대역폭 집약적인 작업에서 AI 워크로드에 필요한 경우에만 순서 지정이 시행됨).
  • 최신 혼잡 제어 메커니즘을 통해 AI 워크로드가 핫스팟을 피하고 다중 경로에 걸쳐 부하를 고르게 분산시친다. 이런 메커니즘은 다중 경로 패킷 스프레잉과 함께 작동하도록 설계할 수 있으므로 AI 트래픽을 안정적으로 전송할 수 있다.
  • 엔드 투 엔드 원격 측정을 통한 혼잡 관리. 네트워크에서 발생하는 정보는 혼잡의 위치와 원인을 참가자에게 알려줄 수 있다. 혼잡 신호 경로를 단축하고 엔드포인트에 더 많은 정보를 제공하면 보다 신속하게 혼잡을 제어할 수 있습니다.

이와 함께 UEC는 이더넷 네트워크의 규모, 안정성, 신뢰성을 높이고 보안을 강화할 것이라고 밝혔다. 설계부터 네트워크 보안을 통합하고, AI 학습 또는 추론 작업에서 연산 엔드포인트 간에 전송되는 모든 네트워크 트래픽을 암호화하고 인증할 수 있다. 효율적인 세션 관리, 인증, 기밀 유지를 위해 검증된 핵심 기술을 활용하는 전송 프로토콜을 개발하고, IPSec이나 PSP와 같은 최신 암호화 기술을 사용할 계획이다.

울트라 이더넷 컨소시엄 의장 J 메츠 박사는 발표문을 통해 "이더넷을 전면 개조하는 것이 아니다. 특정 성능 요구 사항이 있는 워크로드의 효율성을 개선하기 위해 이더넷을 튜닝하는 것이다. 효율성과 성능을 개선할 수 있는 최선의 방법을 찾기 위해 물리 계층부터 소프트웨어 계층까지 모든 계층을 검토하고 있다"라고 강조했다.

실제로 여러 조사에서 향상된 AI 연결 기술의 필요성이 제기됐다. 델오로 그룹은 최근 발표한 '데이터센터 5개년 2023년 7월 예측 보고서'에서 2027년까지 이더넷 데이터센터 스위치 포트의 20%가 AI 워크로드를 지원하기 위해 가속화 서버에 연결될 것이라고 전망한 바 있다. 델오로의 부사장인 사메 부젤베네는 새로운 AI 애플리케이션의 부상은 데이터센터 스위치 시장의 성장을 촉진할 것이며, 향후 5년 동안 누적 매출이 1,000억 달러를 넘어설 것으로 예상했다.

650 그룹도 최근 발표한 보고서에서 AI/ML이 네트워크에 엄청난 양의 대역폭 성능을 요구하며, AI/ML이 향후 5년간 데이터센터 스위칭의 주요 성장 동력 중 하나라고 밝혔다. 650 그룹의 설립자 알란 위켈은 "AI의 대역폭이 증가함에 따라 현재는 틈새시장인 AI/ML 및 가속 컴퓨팅에 연결된 이더넷 스위칭의 비중이 2027년에는 상당한 비중을 차지할 것이다. AI/ML 지원 제품의 생산이 일정한 규모에 도달하는 대로 800Gbps 기반 스위치와 광 장비의 출하량이 기록적으로 증가할 것"이라고 전망했다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.