오픈소스 / 클라우드

스노우플레이크, “파이썬 기능 강화로 데이터 과학자 공략”

Anirban Ghoshal | InfoWorld 2022.06.17
클라우드 기반 데이터 웨어하우스 업체 스노우플레이크(Snowflake)가 데이터 과학자를 잡기 위한 노력에 한창이다. 14일 열린 연례 스노우플레이크 서밋 행사에서 발표된 소식을 보면 주로 파이썬이나 데이터 액세스와 관련된 기능이 주를 이뤘다. 데이터 과학자가 관심을 둘 만한 기능이다. 아직 비공개 프리뷰 단계나 개발 단계의 수준이지만, 이런 서비스를 보강되면 앞으로 테라데이터(Teradata), 구글 빅쿼리(BigQuery), 아마존 레드시프트(Redshift)같은 서비스와 경쟁이 본격화될 것으로 예상된다. 
 
ⓒ Getty Images Bank

새로 업데이트된 서비스엔 먼저 스노우파크(Snowpark)가 있다. 지난해 출시된 스노우파크는 데이터 프레임의 기능을 제공하는 개발 도구로, 개발자가 선호하는 툴을 스노우플레이크의 가상 웨어하우스 컴퓨팅 엔진에 서버리스 방식으로 설치할 수 있게 도와준다. 앞으로 스노우파크에선 파이썬 기능도 쉽게 이용할 수 있다. 

파이썬이 추가되면서 스노우플레이크는 머신러닝을 위한 애플리케이션 개발 속도를 높일 수 있다고 보고 있다. 스노우플레이크의 제품 담당 수석 부사장인 크리스티안 클라이너맨은 “파이썬은 스노우플레이크 고객이 가장 많이 요청한 기능”이라고 강조했다. 

업계 애널리스트는 데이터 과학자가 파이썬을 가장 선호하고 있다는 점에서 파이썬 관련 기능이 많아지고 있는 것은 자연스러운 현상이라고 보고 있다. 컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 덕 헨쉔은 “스노우플레이크는 늦은 감이 있다”라며 “테라데이터, 구글 빅쿼리, 버티카(Vertica)와 같은 경쟁 서비스에선 이미 파이썬을 지원한다”라고 지적했다.

스트림릿(Streamlit)이라는 도구도 스노우파크에서 통합 지원한다. 스트림릿은 오픈소스 앱 프레임워크로, 파이썬을 이용해 데이터를 시각화하고 변경하고 공유할 때 사용된다. 보통 머신러닝 개발자나 데이터 과학자 및 엔지니어들이 이용하는 기술이며 지난 3월 스노우플레이크가 이 기술을 인수했다. 

DB인사이트의 수석 애널리스트 토니 베어는 “이런 통합으로 사용자는 스노우플레이크 환경 내에 머물며 데이터를 액세스, 보호, 관리할 수 있을 뿐만 아니라 데이터 과학 앱을 개발해 데이터를 모델링, 분석할 수도 있을 것”이라고 말했다.

그 외에 다른 기술에도 파이썬 기능이 추가됐다. 스노우플레이크 워크시트(Worksheets)에 파이썬 기능이 새로 추가됐다. 이 기능으로 기업은 스노우사이트(Snowsight)라는 웹 기반 인터페이스를 함께 이용해 파이프라인, 머신 러닝 모델, 애플리케이션을 개발할 수 있다. 코드 자동 완성, 맞춤형 로직 생성도 보다 쉽게 이뤄진다. 

대용량 분석을 원하는 사용자를 위해 ‘라지 메모리 웨어하우스’라는 기능도 별도로 개발 중이다. 데이터 과학자 및 개발팀은 피처 엔지니어링(feature engineering)이나 모델 학습을 수행할 때 데이터를 대량으로 처리하며 메모리 사용을 많이 하는 작업을 하기 마련인데, 라지 메모리 웨어하우스는 이런 환경에서 쓸 수 있다. 여기에 아나콘다를 통합해 파이썬 라이브러리와 함께 이용할 수 있게 만들 예정이다.

헨쉔은 “타 경쟁사도 대용량 메모리 웨어하우스와 파이썬 함수 및 언어를 이용할 수 있게 지원하고 있다”라며 “스노우플레이크도 이런 시장의 요구에 대응하는 것”이라고 평가했다. 

파이썬은 아니지만 시계열 데이터를 활용하는 ‘SQL 머신 러닝’ 서비스도 비공개 프리뷰 형태로 공개됐다. 이 서비스를 이용하면 예측과 분석 기능을 구현해 비즈니스 인텔리전스 애플리케이션 및 대시보드에서 추가할 수 있다. 

헨쉔은 “시계열 데이터 분석은 금융업계를 비롯해 머신러닝 업계에서 유행하는 기법”이라며 “그런 수요를 인식해 시계열 분석 기능에 투자한 것”이라고 설명했다. 

데이터 액세스 속도가 빨라질수록 애플리케이션 개발 속도도 더 빨라지기 마련이다. 이번 행사에서 발표된 기능엔 데이터 액세스와 관련된 소식이 많았다. 구체적으로 스트리밍 데이터 서포트(Streaming Data Support), 아파치 아이스버그 테이블(Apache Iceberg Tables), 온프레미스 스토리지를 위한 ‘외부 테이블(External Tables)’이 있다. 

스트리밍 데이터 서포트는 지속적 데이터 통합 서비스인 ‘스노우파이프(Snowpipe)’를 통해 스트리밍과 배치 파이프라인 사이의 구분을 없애 주는 기술이다. 헨쉔은 “이 기능은 스트림 데이터를 기존에 저장된 데이터와 함께 분석할 수 있게 도와주며, 결과적으로 데이터 엔지니어의 작업 시간을 크게 절약해줄 것”이라고 평가했다.  

아파치 아이스버그 테이블은 오픈소스 기반의 테이블 형식이다. 최근 주목받고 있는 기술로 메타데이터를 이용해 일관성 있고 확장성 있는 데이터 분석 처리를 하는데 용이하다. 최근 구글도 빅 레이크에서도 아이스 버그를 지원하고 있다. 

외부 테이블 기능은 델 테크놀로지스, 퓨어 스토리지 같은 온프레미스 스토리지에서 데이터를 가져올 수 있게 도와준다. 헨쉔은 “스노우플레이크는 한동안 ‘클라우드만 지원’하겠다는 정책을 고수했다”라며 “이번 기능을 보니 온프레미스 스토리지에서 데이터를 옮기지 않고 분석을 하고 싶은 대형 고객이 많다는 걸 이해한 것 같다”라고 덧붙였다. 경쟁사인 테라데이터, 버티카, 옐로우브릭(Yellowbrick)도 온프레미스와 하이브리드, 멀티클라우드 환경을 지원하고 있다. 
editor@itworld.co.kr
 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.