2019.02.13

머신러닝과 오픈 데이터 사이언스 로드맵

BrandPost Sponsored by Cloudera
Cloudera | Cloudera


인공 지능(AI)은 데이터에서 시작한다. AI 여정에 오른 기업이 공감하는 것은 ‘바로 지금이 적기’라는 것이다. 클라우데라 세션 서울(Cloudera Sessions Seoul) 행사에서 데이터 과학자와 지원 인프라, 플랫폼 운영자에게 “왜 지금이 머신러닝 투자 적기인가!”를 안내한 클라우데라 머신러닝 제품 총괄 매트 브랜드와인의 세션을 소개한다. 
 

왜 지금이 머신러닝에 뛰어들기 가장 좋은 때인가? 

머신러닝은 새로운 기술이 아니다. 그런데 왜 지금 모두의 관심사로 떠오르고 있을까? 매트 브랜드와인은 예전과 달리 이제 충분한 데이터가 생겼고, 모델 트레이닝을 위한 컴퓨팅 파워도 충분해졌고, 다양한 오픈 소스 기술과 도구 등장한 것에서 그 이유를 찾았다. 머신러닝이란 기술에 대한 접근성이 좋아지고, 비용이 낮아진 것이다. 

예전처럼 머신러닝과 데이터 분석은 일부 전문가의 영역에 머물지 않는다. 빅 데이터와 첨단 분석을 바닥에 깔고 그 위에서 데이터 과학 환경을 조성하고 머신러닝을 수행하기 한결 수월하다. 컴퓨팅 파워는 클라우드를 이용하면 되고, 고가의 상용 솔루션을 사용하지 않아도 선택 가능한 오픈 소스 대안이 널려 있다. 누구나 마음만 먹으면 머신러닝에 도전할 수 있는 시대다. 이런 변화 속에서 머신러닝에 대한 기업의 핵심 역량에 대한 판단 기준이 바뀌고 있다. 

매트 브랜드는 이 트렌드를 한마디로 정리한다. “이제 머신러닝에 대한 기업의 경쟁 우위는 알고리즘에서 나오지 않는다!” 그는 머신러닝이 기업의 비즈니스 경쟁력으로 이어지는 데 있어 알고리즘이 중요한 것이 아니라 기업이 안팎으로 보유하고 접근할 수 있는 데이터를 어떻게 알고리즘과 조합하느냐에 따라 달라질 것이라고 말했다. 
 

무엇이 머신러닝을 향한 기업의 전진을 막는가? 

매트 브랜드와인은 머신러닝 관련해 기업이 직면한 도전 과제를 3가지로 정의했다. 첫 번째는 협업이다. 데이터 과학자는 IT 및 데이터 관리 담당자에게 작업의 많은 부분을 의지한다. 모델 개발과 트레이닝을 위한 컴퓨팅 자원 확보와 설정, 그리고 필요한 데이터 세트 수집과 전처리에는 IT 전문가의 손이 필요한다. 머신러닝이 비즈니스의 속도에 맞춰 사업 성장과 매출 증진 등에 이바지 하려면 데이터 과학자가 스스로 알아서 다 할 수 있어야 한다.

매트 브랜드는 첫 번째 과제를 Cloudera Data Science Workbench(CDSW)가 어떻게 해결할 수 있는지 간단한 데모로 소개했다. 데모 내용은 데이터 과학자가 IT 부서 도움 없이 안전하게 보호되고 있는 CDH 플랫폼에 있는 데이터에 접근해 R, 파이썬, 스칼라 등 선호하는 언어로 만든 알고리즘을 돌리고 해당 결과를 바로 확인하는 것에 대한 것이었다. 데모 후 이처럼 데이터 과학자 스스로 모든 것을 할 수 있는 것은 컨테이너 기반의 모던 머신러닝 아키텍처에 있다고 설명했다. 



두 번째 걸림돌은 데이터, 라이브러리, 알고리즘, 파라미터 등을 다양하게 조합해 반복해서 모델을 개선하는 작업을 하는 것이다. 이 역시 머리로는 이해되지만 실행에 옮기기 어렵다. 관련해 매트 브랜드는 데이터 과학자의 노트북을 보면 최종1, 최종 2, 최종3 같이 무엇이 최종 버전인지 알 수 없는 폴더가 바탕 화면에 가득한 것을 비유로 들었다. 매트 브랜드는 데이터 과학자가 지속해서 모델을 최적화하려면 클러스터와 머신러닝 관련 각종 코드와 소프트웨어에 대한 구성과 의존성 등을 신경 쓰면 안 되다고 힘주어 말했다. 그리고 도커 기반 컨테이너 하나하나가 독립적인 실험실이 되어 여러 조합과 조건의 모델을 동시에 운영하면서 최선을 찾을 수 있어야 하며, 이런 환경에서 데이터 과학자는 자신의 노트북을 거대한 머신러닝 실험실로 느낄 수 있다고 말했다. 



세 번째로 해결해야 할 것은 트레이닝을 마친 모델을 운영 환경에 배포하는 것이다. 모델을 구현하고 배포하면 데이터 과학자의 일이 다 끝나는 것이 아니다. 모니터링을 해야 하고, 목표한 대로 모델이 구현되었는지를 살피면서 다시 적절한 트레이닝 시기를 잡아야 한다. 즉, 모델을 관리해야 한다는 뜻인데 이 역시 쉽지만은 않다. 관련해 매트 브랜드와인은 클라우데라 데이터 사이언스 워크벤치(Cloudera Data Science Workbench) 데모를 통해 데이터 분석, 모델 트레이닝, 모델 배포와 모니터링이 단일 환경에서 매끄럽게 이어지는 것을 보여 주었다. 


컨테이너, 클라우드 이 두 가지에 주목해야

세션을 정리하면서 매트 브랜드는 앞으로 기업이 가야 할 머신러닝 환경은 지금과는 달라야 한다고 말했다. 모델 개발, 트레이닝, 배포를 사내에서 하건 공용 클라우드에서 하건 데이터 과학자는 신경 쓸 것이 있어서는 안 된다. 이를 위해 앞으로 머신러닝 전체 과정이 컨테이너 환경에서 이루어지리라는 것이 그의 견해다. 이런 흐름에 맞춰 클라우데라는 엔터프라이즈 AI의 큰 틀을 클라우드에 최적화하는 작업에 속도를 높이고 있다. 


2019.02.13

머신러닝과 오픈 데이터 사이언스 로드맵

BrandPost Sponsored by Cloudera
Cloudera | Cloudera


인공 지능(AI)은 데이터에서 시작한다. AI 여정에 오른 기업이 공감하는 것은 ‘바로 지금이 적기’라는 것이다. 클라우데라 세션 서울(Cloudera Sessions Seoul) 행사에서 데이터 과학자와 지원 인프라, 플랫폼 운영자에게 “왜 지금이 머신러닝 투자 적기인가!”를 안내한 클라우데라 머신러닝 제품 총괄 매트 브랜드와인의 세션을 소개한다. 
 

왜 지금이 머신러닝에 뛰어들기 가장 좋은 때인가? 

머신러닝은 새로운 기술이 아니다. 그런데 왜 지금 모두의 관심사로 떠오르고 있을까? 매트 브랜드와인은 예전과 달리 이제 충분한 데이터가 생겼고, 모델 트레이닝을 위한 컴퓨팅 파워도 충분해졌고, 다양한 오픈 소스 기술과 도구 등장한 것에서 그 이유를 찾았다. 머신러닝이란 기술에 대한 접근성이 좋아지고, 비용이 낮아진 것이다. 

예전처럼 머신러닝과 데이터 분석은 일부 전문가의 영역에 머물지 않는다. 빅 데이터와 첨단 분석을 바닥에 깔고 그 위에서 데이터 과학 환경을 조성하고 머신러닝을 수행하기 한결 수월하다. 컴퓨팅 파워는 클라우드를 이용하면 되고, 고가의 상용 솔루션을 사용하지 않아도 선택 가능한 오픈 소스 대안이 널려 있다. 누구나 마음만 먹으면 머신러닝에 도전할 수 있는 시대다. 이런 변화 속에서 머신러닝에 대한 기업의 핵심 역량에 대한 판단 기준이 바뀌고 있다. 

매트 브랜드는 이 트렌드를 한마디로 정리한다. “이제 머신러닝에 대한 기업의 경쟁 우위는 알고리즘에서 나오지 않는다!” 그는 머신러닝이 기업의 비즈니스 경쟁력으로 이어지는 데 있어 알고리즘이 중요한 것이 아니라 기업이 안팎으로 보유하고 접근할 수 있는 데이터를 어떻게 알고리즘과 조합하느냐에 따라 달라질 것이라고 말했다. 
 

무엇이 머신러닝을 향한 기업의 전진을 막는가? 

매트 브랜드와인은 머신러닝 관련해 기업이 직면한 도전 과제를 3가지로 정의했다. 첫 번째는 협업이다. 데이터 과학자는 IT 및 데이터 관리 담당자에게 작업의 많은 부분을 의지한다. 모델 개발과 트레이닝을 위한 컴퓨팅 자원 확보와 설정, 그리고 필요한 데이터 세트 수집과 전처리에는 IT 전문가의 손이 필요한다. 머신러닝이 비즈니스의 속도에 맞춰 사업 성장과 매출 증진 등에 이바지 하려면 데이터 과학자가 스스로 알아서 다 할 수 있어야 한다.

매트 브랜드는 첫 번째 과제를 Cloudera Data Science Workbench(CDSW)가 어떻게 해결할 수 있는지 간단한 데모로 소개했다. 데모 내용은 데이터 과학자가 IT 부서 도움 없이 안전하게 보호되고 있는 CDH 플랫폼에 있는 데이터에 접근해 R, 파이썬, 스칼라 등 선호하는 언어로 만든 알고리즘을 돌리고 해당 결과를 바로 확인하는 것에 대한 것이었다. 데모 후 이처럼 데이터 과학자 스스로 모든 것을 할 수 있는 것은 컨테이너 기반의 모던 머신러닝 아키텍처에 있다고 설명했다. 



두 번째 걸림돌은 데이터, 라이브러리, 알고리즘, 파라미터 등을 다양하게 조합해 반복해서 모델을 개선하는 작업을 하는 것이다. 이 역시 머리로는 이해되지만 실행에 옮기기 어렵다. 관련해 매트 브랜드는 데이터 과학자의 노트북을 보면 최종1, 최종 2, 최종3 같이 무엇이 최종 버전인지 알 수 없는 폴더가 바탕 화면에 가득한 것을 비유로 들었다. 매트 브랜드는 데이터 과학자가 지속해서 모델을 최적화하려면 클러스터와 머신러닝 관련 각종 코드와 소프트웨어에 대한 구성과 의존성 등을 신경 쓰면 안 되다고 힘주어 말했다. 그리고 도커 기반 컨테이너 하나하나가 독립적인 실험실이 되어 여러 조합과 조건의 모델을 동시에 운영하면서 최선을 찾을 수 있어야 하며, 이런 환경에서 데이터 과학자는 자신의 노트북을 거대한 머신러닝 실험실로 느낄 수 있다고 말했다. 



세 번째로 해결해야 할 것은 트레이닝을 마친 모델을 운영 환경에 배포하는 것이다. 모델을 구현하고 배포하면 데이터 과학자의 일이 다 끝나는 것이 아니다. 모니터링을 해야 하고, 목표한 대로 모델이 구현되었는지를 살피면서 다시 적절한 트레이닝 시기를 잡아야 한다. 즉, 모델을 관리해야 한다는 뜻인데 이 역시 쉽지만은 않다. 관련해 매트 브랜드와인은 클라우데라 데이터 사이언스 워크벤치(Cloudera Data Science Workbench) 데모를 통해 데이터 분석, 모델 트레이닝, 모델 배포와 모니터링이 단일 환경에서 매끄럽게 이어지는 것을 보여 주었다. 


컨테이너, 클라우드 이 두 가지에 주목해야

세션을 정리하면서 매트 브랜드는 앞으로 기업이 가야 할 머신러닝 환경은 지금과는 달라야 한다고 말했다. 모델 개발, 트레이닝, 배포를 사내에서 하건 공용 클라우드에서 하건 데이터 과학자는 신경 쓸 것이 있어서는 안 된다. 이를 위해 앞으로 머신러닝 전체 과정이 컨테이너 환경에서 이루어지리라는 것이 그의 견해다. 이런 흐름에 맞춰 클라우데라는 엔터프라이즈 AI의 큰 틀을 클라우드에 최적화하는 작업에 속도를 높이고 있다. 


X