한국 IDG가 주최한 ‘클라우드 & AI 이노베이션 2023’ 컨퍼런스에서 효성인포메이션시스템의 김형섭 컨설턴트는 ‘현장에서 듣는 AI 비즈니스 적용 고민과 해결 방안’(Add AI to your Business)를 주제로, 현장에서 제기되는 5가지 질문을 중심으로 구체적이면서도 실용적인 해법에 대해 발표했다.
“업종별 활용상 다르다, 모두를 위한 AI 업무 흐름이 필요”
김형섭 컨설턴트는 먼저 ‘어떤 업무에 적용할 수 있을까?’라는 질문에 대해 8가지 범주를 제시했다. 자동차&로봇, 생산 및 제조, 유지 관리 및 품질, 유통 및 물류, 헬스케어, 금융&서비스, 영업 및 마케팅, 공공 분야가 그것이다.
그는 “업종에 따라 사용된 AI 모델 알고리즘 유형이 사뭇 다르다. 자동차 로봇 공학 같은 경우는 강화 학습같이 비교적 고성능의 연산 리소스를 필요로 하는 알고리즘이 많이 사용되는 반면, 물류 분야는 이미지 분류와 같이 비교적 가벼운 연산을 수행하는 시스템을 사용한다. 이로 인해 요구되는 AI 플랫폼과 솔루션도 달라진다는 점을 감안해야 한다”라고 말했다.
AI를 적용하는 비즈니스 환경이 확대되고 있다. (출처 : 한국지능정보사회진흥원 – 인공지능 학습용 데이터 과제별 활용 성과내용 요약(22년 자료.)
김형섭 컨설턴트는 이어 비즈니스를 위해 알아야 하는 AI 지식과 관련해 기업이 파악해야 할 업무 흐름을 정리해 제시했다. 그에 따르면 AI 업무 흐름은 데이터 소스, 데이터 추출/분류, 데이터 정제, AI 분석 데이터 저장, 모델 개발(학습/평가), 운영 서비스에 이르는 6단계 과정을 거치게 된다. 크게는 ‘데이터 옵스’와 ‘AI 옵스’로 표현되는 과정들이다. 그는 이러한 AI 흐름에 있어 모두를 배려한 AI 업무 흐름을 마련해야 한다는 점을 강조했다.
그는 “개발자, 데이터 분석가, 데이터 과학자를 아우르는 사용자군은 인프라나 자원 부족에 대한 고민 없이 실제 비즈니스 성과를 창출하기 위한 모델 알고리즘만을 다룰 수 있어야 한다. 반면 시스템 관리자는 사용자들이 필요로 하는 리소스를 적시에 배포하는 데 집중할 수 있어야 한다”라고 말했다. 효성인포메이션시스템이 다양한 사전 정의 이미지를 마련해 데이터 과학자들이 필요한 프레임워크나 애플리케이션을 원클릭으로 사용할 수 있게 하고, 각종 자원을 분할 및 가상화해 배포와 회수와 같은 운영 업무를 용이하게 하는 이유라고 그는 덧붙였다.
“AI 적용 프로세스 4가지와 3가지 고려사항”
김형섭 컨설턴트는 이어 AI를 비즈니스에 적용하는 4가지 단계와 이에 대한 고려 사항을 제시했다. 각각 비즈니스 목표 및 문제 정의, 데이터 운영 설계, 모델 개발 및 서비스 환경 구현, 비즈니스 결과 추적 및 평가다. 그는 실제 업무를 분석해 명확한 미션을 설정하고 데이터 품질과 운영을 적절히 설계하는 한편, 복잡한 아키텍처를 단순화해 개발 서비스를 최적화하고 지속적인 업데이트 체계를 갖추는 것이 중요하다고 설명했다.
그는 “그러나 이러한 단계를 통해 프로젝트를 성공적으로 수행한 기업들조차도 어려움을 겪곤 한다. AI가 확산하면서 자원 관리 문제가 대두되고 AI 모델 개발 서비스를 간소화해야 하는 이슈가 부상하고 데이터 증가 및 모델 대형화로 인한 성능 최적화 문제가 대두되는 것이다”라고 설명을 이어갔다.
효성인포메이션시스템에 따르면 AI 도입 이후 현장에서 토로하는 3가지 이슈가 있으며, 이를 선제적으로 고려하는 것이 중요하다.
효성인포메이션시스템은 이러한 고민에 대한 해법을 선제적으로 제시하고 있다. 먼저 자원 관리와 관련해서는 GPU 분할 가상화, 정책 기반 자원 관리, 리소스 그룹 기반 자원 관리를 통해 해결한다.
래블업 백엔드.AI(Lablup Backend.AI) GPU 분할 가상화 특허 기술을 통해 GPU를 소수점 단위로 분할 가상화하도록 지원함으로써 분산된 GPU를 효율적으로 사용하도록 돕는다. 정책 기반 자원 관리는 사용자 그룹이 별도의 신청 및 허가 절차 없이 허용된 범위 내에서 즉시 사용할 수 있는 환경을 구현한다. 리소스 그룹 기반 자원 관리는 프로젝트 그룹의 업무 로드에 맞춰 최적의 자원을 배포하는 환경을 의미한다.
그는 AI 모델 개발/서비스와 관련해서는 ‘사용자 편의성’의 중요성을 거듭 강조했다. 김형섭 컨설턴트는 “표준 웹브라우저를 통해 직관적으로 리소스 자원을 확인할 수 있고, 100가지 이상의 사전 정의된 개발 환경 중에서 선호하는 개발 툴을 선택할 수 있다. 또 자원을 선택만 하면 개발 환경을 즉시 확보하게 된다”라고 전했다. 특히 주피터 노트북이나 비주얼 스튜디오와 같은 개발 툴 자체가 브라우저 안에 통합돼 있으며, 전처리와 데이터 분석, 모델링, 서비스를 유기적으로 연계해 직렬화한 ML옵스 파이프라인이 마련돼 있다고 그는 덧붙였다.
성능 최적화 이슈에 대한 해법은 H100 GPU와 NV링크, NV스위치, NV링크스위치를 조합한 GPU 연산 성능 최적화 기술이다. 김형섭 컨설턴트는 “GPU 1~2대 가지고 시스템을 구성한다면 이러한 부분을 검토하는 게 별로 이득이 되지 않을 수가 있다. 그러나 10대 20대에 이르는 GPU 대 팜을 향후 구성할 계획이 있다면, H100기반의 슈퍼팟(SuperPOD) 구성을 추천한다”라고 말했다.
스토리지 성능도 감안해야 한다는 권고다. 그는 AI 업무 특성상 대용량 데이터의 전송 속도도 중요하지만, 작지만 다수인 데이터의 전송 속도가 AI 비즈니스에 매우 중요하다며, 이를 해결하기 위해 고성능 병렬 파일 스토리지를 검토하고 확장에 따른 성능 저하 문제가 해결된 시스템을 도입하라고 권고했다. 아울러 데이터 레이크 스토리지로서 여러 인터페이스를 지원하는 플랫폼을 검토하는 것이 중요하다고 그는 덧붙였다.
효성인포메이션시스템의 AI 플랫폼. 자원 관리와 AI 서비스 운영, 성능 최적화에 대한 각각의 해법을 제시한다.
김형섭 컨설턴트는 “정리하자면 효성인포메이션시스템의 AI 플랫폼은 자원 관리를 위해서 컨테이너 기반 GPU 가상화 솔루션을 제공한다. AI 서비스 운영을 위해서 사용자 지향 쉬운 개발 환경을 같이 제공한다. 성능 최적화를 위해서 백엔드.AI와 슈퍼마이크로 GPU 시스템, 히타치 HCSF를 결합해 공급한다”라고 소개했다.
김형섭 컨설턴트는 마지막으로 일련의 성공적인 AI 프로젝트 사례를 제시했다. 먼저 대단위 초고성능 AI 연구 개발을 위해 A100 GPU 수백 대와 고성능 CPU 노드, 올플래시 스토리지, 멜라녹스 N/W와 더불어 고성능 병렬 파일 스토리지인 HCSF, 래블업 백엔드.AI(Lablup Backend.AI)를 연계한 구성으로 구축한 해외법인 A 연구소의 사례다. 김형섭 컨설턴트는 이를 통해 해당 연구소가 컨테이너 및 분산 훈련 기반 초대규모 딥러닝 모델 개발 서비스를 할 수 있게 됐다고 설명했다.
그는 이어 데이터 웨어하우스와 하둡을 운영하는 한 제조사가 전사 데이터 분석을 위한 통합 저장소를 구축한 사례를 공유했다. 해당 기업은 데이터 증가에 따른 시스템 성능 저하를 원했으며, 결과적으로 1,500여 명의 사용자에게 전사 데이터의 고성능 분석 환경을 제공할 수 있었다.
연구와 실습 워크로드를 통합하려 한 국내 대학의 사례에서는 80명 이상의 학생과 10명 이상의 연구원에 맞춰 사용자 그룹별로 최적의 리소스를 정책화함으로써 시스템을 효율화할 수 있었던 점을 그는 언급하며, 별도의 전담 관리자 없이도 웹 GUI를 통해 최적의 운영을 할 수 있다는 점도 주요 혜택으로 소개했다.
효성인포메이션시스템은 기업이 AI를 직접 경험할 수 있도록 지원하는 DX센터를 운영하고 있다.
* 이 기사는 한국 IDG의 클라우드 & AI 이노베이션 2023) 컨퍼런스에서 효성인포메이션시스템 김형섭 컨설턴트가 발표한 ‘현장에서 듣는 AI 비즈니스 적용 고민과 해결 방안’ 세션을 정리한 것이다. ciokr@idg.co.kr