2019.02.14

“데이터 레이크와 에지 컴퓨팅의 결합” 렌틱, 가장 편안한 분석과 머신러닝 강조

Andy Patrizio | Network World
상승효과를 얻기 위해 두 기술을 결합하는 것은 일반적인 전략이다. 하지만 렌틱(Lentiq)은 정말로 독보적인 아이디어를 제시했다. 바로 데이터 호수(Data Lake)를 에지 컴퓨팅(Edge Computing)과 결합해 이른바 “상호 연결된 소형 데이터 호수”인 데이터 연못(Data Pool)을 만드는 것이다.

ⓒ GettyImagesBank

데이터 연못은 소형 데이터 호수로, 데이터 호수처럼 기능하면서 아파치 스파크나 카프카 등의 인기 애플리케이션을 지원한다. 렌틱은 데이터 과학자나 데이터 엔지니어가 필요로 하는 모든 것을 지원한다고 강조했다.

데이터 연못은 서로 다른 클라우드에 걸쳐 독립적으로 존재하며, 거버넌스 규칙은 데이터를 옮길 때만 엄격하게 적용된다. 따라서 기업은 부서별로 사용례에 필요한 툴을 갖추고 필요한 데이터에 액세스하게 된다.

렌틱은 자사의 에지레이크(EdgeLake)를 이용하면, 10분 만에 ‘서비스로서의 데이터 호수(Data Lake as a Service)’를 구축할 수 있다고 주장한다. 이렇게 구축한 서비스는 데이터 및 메타데이터 관리, 애플리케이션 관리, 노트북 공유, 데이터 공유, 인프라, 예산 관리 등의 기능을 제공한다. 렌틱은 “렌틱 에지레이크의 목표는 조직 내에서 가능한한 많은 사용자가 데이터에 액세스하고 가장 익숙한 방법으로 분석과 머신러닝을 수행할 수 있는 환경을 제공하는 것이다. 렌틱은 모든 데이터 프로젝트에서 사람 중심의 머신러닝 접근법을 통해서만 혁신을 이룰 수 있다고 생각한다”라고 설명했다.

표면적으로 이 아이디어는 완전히 모순되는 개념이다. 중앙 데이터 저장소인 데이터 호수와 에지 컴퓨팅을 결합했기때문이다. 물론 데이터 호수는 데이터 웨어하우스와 같은 대규모 저장소이지만, 운영 방식은 완전히 다르다.

우선 데이터 호수는 이미지부터 PDF, 오디오, 로그 등의 비구조화 데이터를 저장한다. 데이터 웨어하우스는 행과 열로 완전히 구조화된 데이터이다. 전용 하드웨어나 소프트웨어가 필요없다는 것도 데이터 호수의 특징이다. 평범한 파일 시스템을 지원하는 시스템이라면 어느 것이라도 사용할 수 있다.

하지만 가장 큰 차이는 데이터 처리 시점이다. 데이터 웨어하우스는 스토리지에 저장하기 전에 데이터를 처리하는 반면, 데이터 호수는 무엇이든 일단 저장한 다음 필요할 때 처리한다.

이 특성이 에지 컴퓨팅과 점목되는 부분이다. 에지가 불필요한 데이터를 거르는 필터 역할을 맡는 것이다. 예를 들어, 자동차 데이터를 수집하는 에지 시스템은 모든 것이 정상이라고 말하는 센서 데이터는 필요없다. 비정상적이거나 정상 범위를 벗어난 데이터가 필요하다. 이런 데이터가 바로 데이터센터로 보내야 하는 것이며, 이런 방식이 데이터 웨어하우스의 운영 방식이기도 하다.

렌틱의 에지레이크가 이런 개념을 어떤 수준과 범위까지 적용할지는 지켜볼 필요가 있다. 현재 에지레이크가 대상으로 삼고 있는 곳이 개별 부서와 원격지 사무실 등이라는 점에서 렌틱은 ‘에지’란 용어를 단지 한창 유행 중이기 때문에 사용한 것으로 보이기 때문이다.
editor@itworld.co.kr


2019.02.14

“데이터 레이크와 에지 컴퓨팅의 결합” 렌틱, 가장 편안한 분석과 머신러닝 강조

Andy Patrizio | Network World
상승효과를 얻기 위해 두 기술을 결합하는 것은 일반적인 전략이다. 하지만 렌틱(Lentiq)은 정말로 독보적인 아이디어를 제시했다. 바로 데이터 호수(Data Lake)를 에지 컴퓨팅(Edge Computing)과 결합해 이른바 “상호 연결된 소형 데이터 호수”인 데이터 연못(Data Pool)을 만드는 것이다.

ⓒ GettyImagesBank

데이터 연못은 소형 데이터 호수로, 데이터 호수처럼 기능하면서 아파치 스파크나 카프카 등의 인기 애플리케이션을 지원한다. 렌틱은 데이터 과학자나 데이터 엔지니어가 필요로 하는 모든 것을 지원한다고 강조했다.

데이터 연못은 서로 다른 클라우드에 걸쳐 독립적으로 존재하며, 거버넌스 규칙은 데이터를 옮길 때만 엄격하게 적용된다. 따라서 기업은 부서별로 사용례에 필요한 툴을 갖추고 필요한 데이터에 액세스하게 된다.

렌틱은 자사의 에지레이크(EdgeLake)를 이용하면, 10분 만에 ‘서비스로서의 데이터 호수(Data Lake as a Service)’를 구축할 수 있다고 주장한다. 이렇게 구축한 서비스는 데이터 및 메타데이터 관리, 애플리케이션 관리, 노트북 공유, 데이터 공유, 인프라, 예산 관리 등의 기능을 제공한다. 렌틱은 “렌틱 에지레이크의 목표는 조직 내에서 가능한한 많은 사용자가 데이터에 액세스하고 가장 익숙한 방법으로 분석과 머신러닝을 수행할 수 있는 환경을 제공하는 것이다. 렌틱은 모든 데이터 프로젝트에서 사람 중심의 머신러닝 접근법을 통해서만 혁신을 이룰 수 있다고 생각한다”라고 설명했다.

표면적으로 이 아이디어는 완전히 모순되는 개념이다. 중앙 데이터 저장소인 데이터 호수와 에지 컴퓨팅을 결합했기때문이다. 물론 데이터 호수는 데이터 웨어하우스와 같은 대규모 저장소이지만, 운영 방식은 완전히 다르다.

우선 데이터 호수는 이미지부터 PDF, 오디오, 로그 등의 비구조화 데이터를 저장한다. 데이터 웨어하우스는 행과 열로 완전히 구조화된 데이터이다. 전용 하드웨어나 소프트웨어가 필요없다는 것도 데이터 호수의 특징이다. 평범한 파일 시스템을 지원하는 시스템이라면 어느 것이라도 사용할 수 있다.

하지만 가장 큰 차이는 데이터 처리 시점이다. 데이터 웨어하우스는 스토리지에 저장하기 전에 데이터를 처리하는 반면, 데이터 호수는 무엇이든 일단 저장한 다음 필요할 때 처리한다.

이 특성이 에지 컴퓨팅과 점목되는 부분이다. 에지가 불필요한 데이터를 거르는 필터 역할을 맡는 것이다. 예를 들어, 자동차 데이터를 수집하는 에지 시스템은 모든 것이 정상이라고 말하는 센서 데이터는 필요없다. 비정상적이거나 정상 범위를 벗어난 데이터가 필요하다. 이런 데이터가 바로 데이터센터로 보내야 하는 것이며, 이런 방식이 데이터 웨어하우스의 운영 방식이기도 하다.

렌틱의 에지레이크가 이런 개념을 어떤 수준과 범위까지 적용할지는 지켜볼 필요가 있다. 현재 에지레이크가 대상으로 삼고 있는 곳이 개별 부서와 원격지 사무실 등이라는 점에서 렌틱은 ‘에지’란 용어를 단지 한창 유행 중이기 때문에 사용한 것으로 보이기 때문이다.
editor@itworld.co.kr


X