2019.12.12

“클라우드 데이터 분석 기능의 대통합” 마이크로소프트 애저 시냅스 첫인상

Simon Bisson | InfoWorld
마이크로소프트 애저와 같은 하이퍼스케일 클라우드 서비스는 대량의 데이터를 다루도록 설계되며 스토리지 하드웨어를 구매할 때 규모의 경제를 활용한다. 또한 빙, 구글과 같은 검색 엔진과의 긴밀한 관계를 활용, 공중 인터넷 분석을 위해 개발된 알고리즘과 툴을 기반으로 서비스를 구축한다. 이와 같은 특성의 조합 덕분에 자체 데이터센터에서는 불가능한 규모로 방대한 데이터 집합을 처리해야 하는 애플리케이션을 구축하기 위한 플랫폼으로 이상적이다.
 
ⓒ GettyImagesBank

마이크로소프트는 애저 초기부터 자체 SQL 데이터베이스부터 시작해 하둡 및 기타 아파치 데이터 서비스를 위한 HD인사이트(HDInsight)를 추가하고 구조적 데이터와 비구조적 데이터를 혼합할 수 있는 대규모 데이터 레이크를 제공하는 등 다양한 데이터 및 분석 서비스를 제공해왔다. 하지만 최근까지 대부분 서비스는 독립형이었으므로 각 서비스를 결합하려면 고객 스스로 자체 툴을 구축해야 했다. 마이크로소프트는 이그나이트(Ignite) 2019에서 애저의 기존 SQL 데이터 웨어하우스에서 아키텍처와 상표를 바꾸고 아파치 스파크와 자체 스튜디오 개발 및 분석 툴에 대한 지원을 추가해 애저 시냅스(Synapse)로 출범했다.
 

클러스터 기반의 데이터 웨어하우스

애저 시냅스는 단순히 기존 제품의 상표를 바꾼 것 이상으로, 애저의 데이터 분석 기능 대부분을 하나의 서비스로 통합하는 데 초점을 둔다. 전통적인 데이터 웨어하우스와 달리 관계 및 비구조적 데이터의 혼합을 지원하는 동시에 기존 SQL 스킬을 사용해서 애저 SQL의 폴리베이스(PolyBase) 빅 데이터 쿼리 엔진을 기반으로 분석 모델을 만들고 테스트할 수 있게 해준다. 메모리의 열 저장소를 사용하므로 빠르고 효율적이다. 이는 클라우드 서비스 소비 모델을 사용할 때 중요한 특성이다.

시냅스가 다른 데이터 웨어하우스 제품과 구분되는 부분은 애저 SQL 하이퍼스케일 옵션에 뿌리를 두고 있다는 점이다. 하나의 컴퓨팅 노드가 모든 쿼리를 처리하는 것이 아니라, 마이크로소프트 용어로 이른바 “데이터 웨어하우스 유닛”의 클러스터를 사용한다. 이를 통해 쿼리 컴퓨팅이 기반 스토리지와 분리되고 시냅스는 대규모 데이터 병렬 처리 접근 방식을 활용해 쿼리를 다룰 수 있다. 각 데이터 웨어하우스 유닛에는 컴퓨팅과 맞춤형 애플리케이션인 데이터 무브먼트 서비스(Data Movement Service)가 있다. 이 서비스는 여러 노드와 애저 스토리지(Azure Storage)에 걸쳐 작동하면서 적절한 데이터가 적절한 노드에 제공되도록 한다. 속도는 확실히 빠르다. 이그나이트의 시연에서는 30페타바이트 데이터 집합을 사용해서 구글 빅 쿼리와 비교했는데, 시냅스가 75배 더 빨랐다.

가격 측면의 이점도 있다. 애저의 PaaS 기능이 대부분 그렇듯이 기본적으로 서버리스 환경이며, 필요에 따라 가동되고 더 이상 필요 없을 때 정지된다. 따라서 쿼리를 실행하는 데 사용된 컴퓨팅과 기반 스토리지에 대해서만 비용을 지불하면서 더 복잡한 분석을 위해 필요한 경우 컴퓨팅을 추가할 수 있다.
 

애저 시냅스 SQL 풀 시작하기

애저 시냅스를 위한 새 SQL 풀을 만드는 과정은 애저 데이터 웨어하우스와 동일하다. 먼저 애저 포털에 새 SQL 데이터 웨어하우스 리소스를 만든다. 이렇게 하면 로그온 및 비밀번호를 적용해 새 서버를 만들 수 있다. 성능 수준을 선택하면 기본 서버 유형이 선택되고, 이 유형에 따라 풀의 컴퓨팅 비용이 설정된다. 프로비저닝이 완료되고 적절한 방화벽 규칙이 설정되면 원하는 SQL 서버 관리 툴을 사용해서 관리를 시작할 수 있다. 쿼리는 익숙한 T-SQL 언어를 사용해서 작성된다. 폴리베이스(PolyBase)를 사용하면 애저 블롭(blob) 스토리지에서 쿼리에 사용할 프로덕션 테이블을 만드는 데 사용되는 스테이징 테이블로 데이터를 로드할 수 있다.

데이터 분석 용도로 아파치 스파크를 선호하는 경우 동일한 플랫폼을 SQL이 아닌 아파치 스파크에서도 사용할 수 있다. 이 접근 방법은 당면한 문제에 맞는 적절한 툴을 선택할 수 있는 한층 더 높은 유연성을 제공한다.

기존 애저 SQL 데이터 웨어하우스 인스턴스가 있는 경우 애저 시냅스에서 인스턴스를 실행해서 관계형 데이터와 비관계형 데이터에서 모두 작동하는 복잡한 데이터 집합을 다루기 위한 더 다양한 옵션을 이용할 수 있다. 흥미롭게도 마이크로소프트는 오픈 데이터 이니셔티브(Open Data Initiative) 소스와의 통합을 약속했다. 통합되면 어도비 마케팅 클라우드(Marketing Cloud)의 데이터, SAP의 데이터, 그리고 마이크로소프트 자체 다이내믹스(Dynamics) 플랫폼의 데이터도 지원하게 된다. 마이크로소프트는 서드파티 업체를 포함한 다른 데이터 소스를 위한 커넥터도 계획 중이다.
 

시냅스 스튜디오에서 쿼리 작성하기

시냅스 스튜디오는 새로운 통합 분석 플랫폼의 핵심 요소다. 쿼리를 작성하고 테스트하고 결과를 보기 위한 단일 창 역할을 한다. 코드와 함께 사용할 수도 있고 코드 없이 다양한 테이블과 소스를 선택해서 쿼리를 실행하고 보고서를 작성할 수도 있다. 같은 툴을 특정 문제를 해결하는 데 도움이 되는 일회용 쿼리에 사용할 수도 있고, 다양한 데이터 소스에 대해 정기적으로 보고서를 생성해야 하는 경우 애저 데이터 팩토리(Data Factory)를 사용해서 자동화할 수 있는 반복적인 쿼리를 작성하는 데 사용할 수도 있다.

한 가지 유용한 기능은 애저 시냅스와 파워 BI(Power BI)와의 통합이다. 데이터 분석가는 애저 시냅스를 사용해서 모델을 만들고 이 모델을 비즈니스 분석가에게 넘길 수 있으며, 비즈니스 분석가는 파워 BI의 시각적 분석 툴을 사용해 자체 쿼리를 작성해 실행하면서 각자의 관심 사항과 관련된 결과를 찾아볼 수 있다. 이 접근 방법에서는 비즈니스 분석가가 쿼리를 다듬는 동안 데이터 팀이 지속적으로 모델을 다시 구축하고 값비싼 분석 프로세스를 실행할 필요가 없으므로 특정 비즈니스 문제에 대한 답을 찾는 데 필요한 시간이 단축된다. 파워 BI 통합은 머신러닝 및 기타 애저 서비스를 사용하는 사전 작성된 쿼리를 경영진의 대시보드에 내장해서 주요 비즈니스 메트릭스에 실시간에 가깝게 액세스할 수 있게 해준다.
 

분석에서 머신러닝까지

애저 시냅스의 데이터 저장소와 같은 대규모 데이터 저장소는 머신러닝 모델을 학습시키는 데 유용하다. 시냅스의 스튜디오 개발 툴에는 주피터 노트북(Jupyter Notebook)과 비슷한, 애저 머신러닝 파이프라인에서 사용하기 전에 새로운 모델을 구축하고 테스트하기 위한 스케치패드가 포함돼 있다. 통계적 데이터 탐색 언어인 R과 머신러닝의 대표적 언어인 파이썬을 지원한다.

마이크로소프트는 애저 시냅스가 “페타바이트 스케일” 플랫폼이라고 설명한다. 대부분의 사람들은 페타바이트 규모에서 작업할 필요가 없지만 그 정도 규모에서 결과를 제공하는 툴은 훨씬 더 작은 데이터 집합이나 IoT 디바이스에서 스트리밍되는 데이터를 다룰 때도 동일하게 효과적이다. 마이크로소프트가 애저 시냅스 사용을 권장하는 데이터 규모는 1TB 이상이며, 최소 데이터 집합 크기는 250GB다.

비교적 작게 시작해서 빠르게 확장할 수 있는 기능과 데이터 웨어하우스의 데이터를 데이터 과학자, 비즈니스 분석가, 데이터베이스 웨어하우스 전문가와 공유하는 기능을 갖추고 동일한 기반 데이터 집합에 대해 역할별 툴을 사용하는 옵션까지 제공하는 애저 시냅스는 다른 온프레미스 및 클라우드 분석 툴에 대한 매력적인 대안이다. editor@itworld.co.kr


2019.12.12

“클라우드 데이터 분석 기능의 대통합” 마이크로소프트 애저 시냅스 첫인상

Simon Bisson | InfoWorld
마이크로소프트 애저와 같은 하이퍼스케일 클라우드 서비스는 대량의 데이터를 다루도록 설계되며 스토리지 하드웨어를 구매할 때 규모의 경제를 활용한다. 또한 빙, 구글과 같은 검색 엔진과의 긴밀한 관계를 활용, 공중 인터넷 분석을 위해 개발된 알고리즘과 툴을 기반으로 서비스를 구축한다. 이와 같은 특성의 조합 덕분에 자체 데이터센터에서는 불가능한 규모로 방대한 데이터 집합을 처리해야 하는 애플리케이션을 구축하기 위한 플랫폼으로 이상적이다.
 
ⓒ GettyImagesBank

마이크로소프트는 애저 초기부터 자체 SQL 데이터베이스부터 시작해 하둡 및 기타 아파치 데이터 서비스를 위한 HD인사이트(HDInsight)를 추가하고 구조적 데이터와 비구조적 데이터를 혼합할 수 있는 대규모 데이터 레이크를 제공하는 등 다양한 데이터 및 분석 서비스를 제공해왔다. 하지만 최근까지 대부분 서비스는 독립형이었으므로 각 서비스를 결합하려면 고객 스스로 자체 툴을 구축해야 했다. 마이크로소프트는 이그나이트(Ignite) 2019에서 애저의 기존 SQL 데이터 웨어하우스에서 아키텍처와 상표를 바꾸고 아파치 스파크와 자체 스튜디오 개발 및 분석 툴에 대한 지원을 추가해 애저 시냅스(Synapse)로 출범했다.
 

클러스터 기반의 데이터 웨어하우스

애저 시냅스는 단순히 기존 제품의 상표를 바꾼 것 이상으로, 애저의 데이터 분석 기능 대부분을 하나의 서비스로 통합하는 데 초점을 둔다. 전통적인 데이터 웨어하우스와 달리 관계 및 비구조적 데이터의 혼합을 지원하는 동시에 기존 SQL 스킬을 사용해서 애저 SQL의 폴리베이스(PolyBase) 빅 데이터 쿼리 엔진을 기반으로 분석 모델을 만들고 테스트할 수 있게 해준다. 메모리의 열 저장소를 사용하므로 빠르고 효율적이다. 이는 클라우드 서비스 소비 모델을 사용할 때 중요한 특성이다.

시냅스가 다른 데이터 웨어하우스 제품과 구분되는 부분은 애저 SQL 하이퍼스케일 옵션에 뿌리를 두고 있다는 점이다. 하나의 컴퓨팅 노드가 모든 쿼리를 처리하는 것이 아니라, 마이크로소프트 용어로 이른바 “데이터 웨어하우스 유닛”의 클러스터를 사용한다. 이를 통해 쿼리 컴퓨팅이 기반 스토리지와 분리되고 시냅스는 대규모 데이터 병렬 처리 접근 방식을 활용해 쿼리를 다룰 수 있다. 각 데이터 웨어하우스 유닛에는 컴퓨팅과 맞춤형 애플리케이션인 데이터 무브먼트 서비스(Data Movement Service)가 있다. 이 서비스는 여러 노드와 애저 스토리지(Azure Storage)에 걸쳐 작동하면서 적절한 데이터가 적절한 노드에 제공되도록 한다. 속도는 확실히 빠르다. 이그나이트의 시연에서는 30페타바이트 데이터 집합을 사용해서 구글 빅 쿼리와 비교했는데, 시냅스가 75배 더 빨랐다.

가격 측면의 이점도 있다. 애저의 PaaS 기능이 대부분 그렇듯이 기본적으로 서버리스 환경이며, 필요에 따라 가동되고 더 이상 필요 없을 때 정지된다. 따라서 쿼리를 실행하는 데 사용된 컴퓨팅과 기반 스토리지에 대해서만 비용을 지불하면서 더 복잡한 분석을 위해 필요한 경우 컴퓨팅을 추가할 수 있다.
 

애저 시냅스 SQL 풀 시작하기

애저 시냅스를 위한 새 SQL 풀을 만드는 과정은 애저 데이터 웨어하우스와 동일하다. 먼저 애저 포털에 새 SQL 데이터 웨어하우스 리소스를 만든다. 이렇게 하면 로그온 및 비밀번호를 적용해 새 서버를 만들 수 있다. 성능 수준을 선택하면 기본 서버 유형이 선택되고, 이 유형에 따라 풀의 컴퓨팅 비용이 설정된다. 프로비저닝이 완료되고 적절한 방화벽 규칙이 설정되면 원하는 SQL 서버 관리 툴을 사용해서 관리를 시작할 수 있다. 쿼리는 익숙한 T-SQL 언어를 사용해서 작성된다. 폴리베이스(PolyBase)를 사용하면 애저 블롭(blob) 스토리지에서 쿼리에 사용할 프로덕션 테이블을 만드는 데 사용되는 스테이징 테이블로 데이터를 로드할 수 있다.

데이터 분석 용도로 아파치 스파크를 선호하는 경우 동일한 플랫폼을 SQL이 아닌 아파치 스파크에서도 사용할 수 있다. 이 접근 방법은 당면한 문제에 맞는 적절한 툴을 선택할 수 있는 한층 더 높은 유연성을 제공한다.

기존 애저 SQL 데이터 웨어하우스 인스턴스가 있는 경우 애저 시냅스에서 인스턴스를 실행해서 관계형 데이터와 비관계형 데이터에서 모두 작동하는 복잡한 데이터 집합을 다루기 위한 더 다양한 옵션을 이용할 수 있다. 흥미롭게도 마이크로소프트는 오픈 데이터 이니셔티브(Open Data Initiative) 소스와의 통합을 약속했다. 통합되면 어도비 마케팅 클라우드(Marketing Cloud)의 데이터, SAP의 데이터, 그리고 마이크로소프트 자체 다이내믹스(Dynamics) 플랫폼의 데이터도 지원하게 된다. 마이크로소프트는 서드파티 업체를 포함한 다른 데이터 소스를 위한 커넥터도 계획 중이다.
 

시냅스 스튜디오에서 쿼리 작성하기

시냅스 스튜디오는 새로운 통합 분석 플랫폼의 핵심 요소다. 쿼리를 작성하고 테스트하고 결과를 보기 위한 단일 창 역할을 한다. 코드와 함께 사용할 수도 있고 코드 없이 다양한 테이블과 소스를 선택해서 쿼리를 실행하고 보고서를 작성할 수도 있다. 같은 툴을 특정 문제를 해결하는 데 도움이 되는 일회용 쿼리에 사용할 수도 있고, 다양한 데이터 소스에 대해 정기적으로 보고서를 생성해야 하는 경우 애저 데이터 팩토리(Data Factory)를 사용해서 자동화할 수 있는 반복적인 쿼리를 작성하는 데 사용할 수도 있다.

한 가지 유용한 기능은 애저 시냅스와 파워 BI(Power BI)와의 통합이다. 데이터 분석가는 애저 시냅스를 사용해서 모델을 만들고 이 모델을 비즈니스 분석가에게 넘길 수 있으며, 비즈니스 분석가는 파워 BI의 시각적 분석 툴을 사용해 자체 쿼리를 작성해 실행하면서 각자의 관심 사항과 관련된 결과를 찾아볼 수 있다. 이 접근 방법에서는 비즈니스 분석가가 쿼리를 다듬는 동안 데이터 팀이 지속적으로 모델을 다시 구축하고 값비싼 분석 프로세스를 실행할 필요가 없으므로 특정 비즈니스 문제에 대한 답을 찾는 데 필요한 시간이 단축된다. 파워 BI 통합은 머신러닝 및 기타 애저 서비스를 사용하는 사전 작성된 쿼리를 경영진의 대시보드에 내장해서 주요 비즈니스 메트릭스에 실시간에 가깝게 액세스할 수 있게 해준다.
 

분석에서 머신러닝까지

애저 시냅스의 데이터 저장소와 같은 대규모 데이터 저장소는 머신러닝 모델을 학습시키는 데 유용하다. 시냅스의 스튜디오 개발 툴에는 주피터 노트북(Jupyter Notebook)과 비슷한, 애저 머신러닝 파이프라인에서 사용하기 전에 새로운 모델을 구축하고 테스트하기 위한 스케치패드가 포함돼 있다. 통계적 데이터 탐색 언어인 R과 머신러닝의 대표적 언어인 파이썬을 지원한다.

마이크로소프트는 애저 시냅스가 “페타바이트 스케일” 플랫폼이라고 설명한다. 대부분의 사람들은 페타바이트 규모에서 작업할 필요가 없지만 그 정도 규모에서 결과를 제공하는 툴은 훨씬 더 작은 데이터 집합이나 IoT 디바이스에서 스트리밍되는 데이터를 다룰 때도 동일하게 효과적이다. 마이크로소프트가 애저 시냅스 사용을 권장하는 데이터 규모는 1TB 이상이며, 최소 데이터 집합 크기는 250GB다.

비교적 작게 시작해서 빠르게 확장할 수 있는 기능과 데이터 웨어하우스의 데이터를 데이터 과학자, 비즈니스 분석가, 데이터베이스 웨어하우스 전문가와 공유하는 기능을 갖추고 동일한 기반 데이터 집합에 대해 역할별 툴을 사용하는 옵션까지 제공하는 애저 시냅스는 다른 온프레미스 및 클라우드 분석 툴에 대한 매력적인 대안이다. editor@itworld.co.kr


X