데이터의 중요성은 갈수록 커지고 있다. 데이터는 맞춤형 AI 모델을 학습시키고 미세 조정하거나 기존 AI 애플리케이션에 필수적인 근거를 제공하는 데 사용된다. 마이크로소프트의 패브릭(Fabric)은 애저 시냅스와 같은 기존 데이터 툴을 기반으로 하는 호스팅형 분석 플랫폼이다. 당연히 마이크로소프트는 AI에 초점을 둔 빌드 2024 컨퍼런스에서 현대 AI 애플리케이션의 대규모 분석과 데이터 요구사항을 지원하기 위한 새로운 기능을 공개했다.
마이크로소프트는 패브릭에 대해 많은 양의 데이터를 다루는 작업에서 복잡성을 걷어내 분석과 데이터에서 가치를 끌어내는 데 집중할 수 있게 해주는 플랫폼이라고 설명해 왔다. 즉, 파워 BI와 같은 툴을 사용해 데이터 기반 대시보드를 만들어 공유하거나 이 데이터를 사용해서 맞춤형 AI를 학습, 테스트, 운용하거나 기존 생성형 AI 기반 모델에 근거를 제공할 수 있다.
패브릭에 집어넣은 아이스버그
중요한 새로운 기능 중 하나는 마이크로소프트 패브릭을 다른 대규모 데이터 플랫폼과 더 원활하게 통합할 수 있도록 하기 위한 더 많은 데이터 형식 지원이다. 지금까지 패브릭은 리눅스 파운데이션에서 관리하고 다양한 레이크하우스 기반 플랫폼에 사용되는 델타 파케이(Delta Parquet) 데이터 형식을 기반으로 구축됐다. 델타 파케이의 오픈소스 데이터 저장 기술은 트랜잭션 로그와 대규모 클라우드 객체 저장소를 혼합할 수 있게 해준다. 특수한 데이터 저장소를 사용할 필요가 없다. 선택한 데이터 엔진으로 애저 블롭 스토리지에 저장된 델타 레이크 파일을 다루면 된다. 이는 중요한 데이터 형식이지만 대량의 데이터를 관리하는 데 사용되는 유일한 방법은 아니다. 인기 있는 플랫폼 중 하나인 스노우플레이크의 관리형 클라우드 데이터 플랫폼은 아파치의 아이스버그(Iceberg) 오픈소스 테이블 형식을 사용한다. SQL과 비슷한 툴을 사용해서 빅데이터를 관리하므로 대규모 테이블과 현재 스키마를 신속하게 편집할 수 있다.
마이크로소프트 패브릭이 애저의 AI 데이터를 위한 허브가 된다면 최대한 많은 데이터 소스를 지원해야 한다. 따라서 마이크로소프트 패브릭의 원레이크 데이터 환경에서 델타 파케이와 함께 아이스버그를 지원한다는 것과, 사용자가 선호하는 툴로 작업할 수 있도록 마이크로소프트 패브릭과 스노우플레이크 간의 양방향 링크를 위한 툴이 출시된다는 것은 빌드에서 데이터 플랫폼과 관련하여 발표된 중요한 소식이다.
패브릭의 아이스버그 지원에서 중요한 측면 중 하나는 바로가기를 사용해서 두 형식 간의 메타데이터를 변환하고, 호스팅되는 위치에 관계없이 쿼리와 분석 툴이 이를 하나의 소스로 취급할 수 있게 해주는 것이다. 따라서 스노우플레이크나 다른 아이스버그 환경에 대규모 기존 데이터 집합을 호스팅하는 조직은 마이크로소프트 패브릭, 그리고 애저 AI 스튜디오와 같은 툴과 패브릭의 통합을 활용할 수 있다. 이는 데이터를 두 곳에 별개로 저장할 필요 없이 스노우플레이크 클라우드에 저장된 데이터를 사용한 AI 모델 학습 프로세스를 간소화해 줄 것이다.
이런 방식은 어도비의 클라우드 기반 마케팅 툴과 애저 데이터브릭스에도 똑같이 사용된다. 이들은 마이크로소프트 패브릭의 바로가기 툴을 사용하므로 기존 데이터브릭스 카탈로그를 패브릭으로 가져올 수 있으며, 이와 동시에 원레이크 데이터는 애저 데이터브릭스에서 카탈로그로 볼 수 있게 된다. 따라서 현재 당면한 작업에 가장 잘 맞는 툴을 사용할 수 있고 워크플로우는 데이터 손상 없이 다양한 툴셋을 오간다.
실시간 데이터 지원 개선
마이크로소프트 패브릭은 중요한 데이터 유형인 실시간 스트리밍 데이터를 기본적으로 지원했지만 이 데이터를 효과적으로 사용하려면 두 가지 툴이 필요했다. 비즈니스 시스템과 산업용 사물인터넷 시스템에서 오는 라이브 데이터를 대상으로 분석을 실행하면 빠른 인사이트를 얻어 문제가 비즈니스에 영향을 미치기 전에 포착할 수 있으며, 특히 데이터가 문제를 가리킬 때 알림과 동작을 트리거할 수 있는 툴에 연결할 수 있다면 더 효과적이다. 새로운 리얼타임 인텔리전스(Real-Time Intelligence) 툴은 스트리밍 데이터를 다루기 위한 허브를 제공한다. 실시간 데이터를 위한 데이터 레이크로 생각하면 된다. 여러 소스에서 데이터를 가져오며 이 데이터를 관리하고 변환하기 위한 일련의 툴을 제공한다. 그 결과는 익숙한 커넥터 메타포를 사용해 데이터에 대한 경로를 구성할 수 있게 해주고 정보를 추출하고 스트리밍 데이터를 추가 분석을 위해 데이터 레이크로 라우팅하는 노코드 개발 환경이다. 스트리밍 데이터는 애저 내부에서, 그리고 다른 외부 데이터 소스에서 가져올 수 있다.
이 접근 방법은 스트리밍 데이터에서 최대한 가치를 끌어내는 데 도움이 된다. 이상 이벤트에 대해 트리거되므로 신속하게 대응해서 전자상거래 플랫폼에서의 사기를 잡아내거나 장비에서 새로 발생한 장애를 포착할 수 있다. 데이터는 이러한 프로세스를 자동화할 수 있는 새로운 AI 모델을 학습시키는 툴이 된다.
코파일럿을 사용한 자연어 쿼리
마이크로소프트는 자체 코파일럿의 형태로 패브릭에 자연어 인터페이스를 추가해왔다. 자연어 인터페이스의 용도는 사용자가 시계열 데이터에 대해 빠르게 질문하고 쿼리를 반복하거나 다듬는 데 필요한 기반 쿠스토 쿼리 언어(KQL)를 생성할 수 있도록 하는 것이다. 이 방식은 KQL 사용 방법을 익히는 데 유용하다. KQL 쿼리가 처음 질문과 어떻게 관련되는지 빠르게 볼 수 있으므로 경험이 부족한 사용자도 필요한 데이터 분석 기술을 익힐 수 있다. 이와 동일한 기반 코파일럿이 마이크로소프트 패브릭의 새로운 AI 기능을 구축하는 데 사용된다. 먼저 데이터 소스를 선택하고, 추가 구성 없이 자연어 질문을 사용해서 복잡한 쿼리를 신속하게 작성하고 필요에 따라 소스와 테이블을 추가할 수 있다. AI 툴이 작성 중인 쿼리를 보여주므로 직접 내용을 편집하고, 결과를 동료와 공유할 수 있다. 마이크로소프트는 이러한 기능을 코파일럿 스튜디오에서도 사용할 수 있도록 해서 사용자에게 데이터와 워크플로우를 위한 엔드투엔드 노코드 개발 환경을 제공할 계획이다.
마이크로소프트 패브릭 분석에 애플리케이션 API 추가하기
마이크로소프트 패브릭은 중요한 분석 툴이며 빅데이터를 관리하고 제어하기 위한 허브를 제공하고 다른 애플리케이션에서도 바로 사용할 수 있다. 필요한 것은 코드에 패브릭 엔드포인트를 빌드해 넣을 수 있도록 이 데이터에 API를 연결하는 방법이다. 지금까지의 모든 패브릭 API는 자체 관리 툴을 구축하기 위한 RESTful 관리 API다. 최신 업데이트에서 데이터에 자체 그래프QL API를 추가할 수 있게 됐다. 데이터 레이크와 레이크하우스는 많은 스키마를 포함할 수 있으므로 그래프QL의 형식 기반 API 정의를 사용하면 모든 패브릭 데이터를 대상으로 작동하는 API를 구성해서 모든 소스의 데이터를 하나의 JSON 객체로 반환할 수 있다. 필요한 모든 추상화를 패브릭 쿼리 엔진이 제공하므로 코드에 패브릭 환경의 데이터에 대한 지식을 집어넣지 않아도 된다.
API를 만드는 과정은 복잡하지 않다. 먼저 마이크로소프트 패브릭 관리 환경 안에서 API 이름을 지정한다. 그런 다음 소스와 노출할 테이블을 선택한다. 그러면 그래프QL 스키마가 만들어지고, 내장된 스키마 탐색기를 통해 쿼리와 필요한 테이블 간 관계를 정의할 수 있다. 현재 모든 패브릭 데이터 소스가 지원되지는 않지만 기존 분석 데이터에 액세스할 수 있게 해주는 현재의 분석 엔드포인트 모음부터 시작하면 된다. 이렇게 하면 마이크로소프트 패브릭은 데이터를 저장하고 분석 쿼리를 실행하고 결과를 테이블에 저장하고 API에 이러한 결과에 대한 액세스를 제공할 수 있다.
API가 준비되면 결과 엔드포인트를 복사해서 애플리케이션 개발자에게 넘겨주기만 하면 된다. 개발자는 적절한 권한 부여를 포함해서 승인된 사용자만 액세스 권한을 얻도록 보장하게 된다(API가 데이터 수정을 허용하는 경우 특히 중요한 부분).
마이크로소프트 패브릭의 최신 업데이트는 플랫폼의 눈에 띄는 빈 부분을 상당수 채워준다. 스트리밍 데이터를 포함한 대체 데이터 형식을 더 쉽게 다룰 수 있으므로 이제 기존 투자를 활용할 수 있으며, 그래프QL API가 지원되므로 패브릭이 내부적으로 기반 쿼리를 처리하는 동안 빅데이터를 다루는 애플리케이션을 빌드할 수 있게 된다.
마이크로소프트 패브릭은 대규모 데이터와 관련된 복잡성을 추상화하는 방법과 AI 에이전트를 제공함으로써 관리형 데이터 플랫폼을 통해 사용자가 기술적 수준과 관계없이 원시 데이터부터 분석 애플리케이션에 이르기까지 과정을 진행할 수 있음을 보여준다.
editor@itworld.co.kr