2019.09.09

머신러닝을 더 쉽게 만드는 6가지 도구

Peter Wayner | CIO
‘머신러닝(ML)’이라는 말은 마법 같은 아우라로 가득 차 있다. 기계가 학습하도록 가르치기란 아직 일반인의 영역으로 보기 어렵다. 오늘날 이 용어는 데이터를 금으로 바꾸는 데이터 사이언티스트 같은 매우 전문적인 연금술사들의 영역이다.
 
ⓒ Image Credit : Getty Images Bank


단 이제 머신러닝 툴은 약간의 용기와 동기만 있다면 누구나 버튼을 눌러 기계가 중요한 것을 학습할 수 있도록 하는 수준으로 발전해가고 있다. 단번에 되는 정도는 아니더라도 데이터를 모아 실행 가능한 통찰력으로 바꾸는 작업이 충분히 자동화되어가는 중이며, 동기를 가진 스마트한 사람들이라면 도전할만한 수준으로 진보했다. 

이런 느린 르네상스는 비즈니스 세계의 많은 사람들이 이미 데이터를 꽤 능숙하게 다루게 되면서 이뤄졌다. 숫자로 가득 찬 스프레드시트는 모든 비즈니스의 의사 결정자들의 언어다. 머신러닝을 다루게 해주는 각종 새로운 툴은 기본적으로 테이블 데이터를 유용한 답변으로 바꾸는 여러 전략과 옵션의 조합이다.

이 툴의 강점은 데이터 수집, 가능한 경우 구조와 일관성 추가, 계산 시작 등의 번거로운 작업을 처리할 수 있는 능력이다. 데이터 수집 과정과 정보를 행과 열로 유지하는 단조로운 작업이 간소화된다.

이 툴은 아직 이 모든 학습을 스스로 수행할 만큼 충분히 스마트하지 못하다. 적절한 질문을 던지고 적절한 곳을 살펴야 한다. 하지만 이 툴을 통해 더욱 신속하게 답을 얻을 수 있기 때문에 더 넓은 영역을 담당하고 더 많은 곳을 조사할 수 있게 된다. 

AutoML : 머신러닝의 민주화
최근 머신러닝 알고리즘 분야에는 추가적인 자동화 메타 계층이 수반된다는 의미의 새로운 유행어인 ‘AutoML’이 등장했다. 전통적인 알고리즘은 옵션과 파라미터가 많았다. 데이터 사이언티스트들은 종종 예측 가능성이 가장 높은 규칙을 찾을 때까지 이런 것들을 조정하느라 시간의 80-99%를 소요하곤 한다.

AutoML은 여러 옵션을 시도하고 시험한 후 추가적인 작업를 거쳐 이 단계를 자동화한다. 머신러닝 알고리즘을 한 번 실행하는 대신에 N회 실행하고 조정하며 N회 다시 실행한다. 예산, 돈, 또는 인내심이 허락하는 한 가능하다. 

클라우드에서는 AutoML 툴이 충분한 머신을 생성하여 병렬로 실행한 후 완료되었을 때 풀(Pool)로 되돌려 보낼 수 있다. 따라서 이 툴은 클라우드 컴퓨팅에 적합한 특성을 지닌다. 첨두 연산 시간에 대해서만 비용을 지불하면 되기 때문이다.

일반적으로 AutoML 알고리즘은 스스로 머신러닝을 연구하기 시작하는 사람들에게 좋은 옵션이다. 자동화는 결과 시험 전 기본적인 파라미터 설정 및 옵션 선택 작업 중 일부를 처리함으로써 작업을 간소화한다. 사용자가 더욱 발전하고 결과를 이해하기 시작하면서 이런 작업 중 하나를 처리하고 스스로 값을 설정할 수 있다.

최신 시스템은 머신이 학습할 수 있는 방법을 더 쉽게 이해할 수 있게 해준다. 전통적인 프로그래밍이 규칙과 데이터를 답변으로 바꾸는 경우 머신러닝 알고리즘은 역으로 작용하여 답변과 데이터를 규칙으로 바꿀 수 있다. 이 규칙을 통해 기업 속 깊은 곳에서 무슨 일이 벌어지고 있는지 배울 수도 있다. 이런 간소화될 툴을 개발하는 사람들은 알고리즘이 발견한 규칙과 더욱 중요한 결과를 재현하는 방법을 설명하는 인터페이스도 개발하고 있다. 

머신러닝을 더 쉽게 하는 6가지 툴
이 모든 기능 덕분에 숫자, 스프레드시트, 데이터를 다루는 사람들은 프로그래밍과 데이터 사이언스에 능하지 않고도 머신러닝의 세계에 들어갈 수 있게 되었다. 아래의 6가지 옵션은 숫자의 바다에서 머신러닝 알고리즘을 이용해 답을 찾는 과정을 간소화해주는 것들이다. 

스플렁크(Splunk)
스플렁크의 오리지널 버전은 현대적인 웹 애플리케이션이 생성한 대량의 로그 파일을 조사(또는 ‘탐구’)하는 툴로 시작됐다. 그 이후로 시계열 및 기타 순차 생성 데이터의 모든 형태를 분석하는 수준으로 발전했다. 이 툴은 복잡한 시각화 루틴을 통해 결과를 대시보드로 제공한다. 

최신 버전에는 데이터 소스를 텐서플로우 같은 머신러닝 툴 및 최고의 파이썬 오픈소스 툴과 통합하는 앱이 포함되어 있다. 이것들은 이상점을 감지하고 이상을 표시하며 미래의 값을 예측하는 간단한 솔루션을 제공한다. 매우 큰 데이터세트에서 단초를 찾는데 특화되어 있다.


데이터로봇(DataRobot)
데이터로봇의 스택 내부에는 R, 파이썬, 기타 여러 플랫폼으로 작성된 최고의 오픈소스 머신 라이브러리들이 포함되어 있다. 파이프라인을 설정하기 위한 흐름도 스타일의 툴을 표시하는 웹 인터페이스만 다루면 된다. 

데이터로봇은 로컬 데이터베이스, 클라우드 데이터스토어, 다운로드 된 파일 또는 스프레드시트 등 모든 주요 데이터 소스에 연결된다. 구축한 파이프라인은 데이터를 지우고 누락된 값을 채우며 이상점을 표시하고 미래의 값을 예측하는 모델을 생성할 수 있다.

또한 데이터로봇은 특정 예측의 근거에 관해 ‘인간 친화적인 설명’을 제공하기 위해 시도할 수 있으며, 이는 AI가 작동하는 방식을 이해하는데 유용한 기능이다.

클라우드 및 구내 솔루션을 결합하여 배치할 수 있다. 클라우드에서의 실행은 공유 자원을 통해 극대화된 병렬화 및 처리량을 제공할 수 있으며 로컬 설치는 더 큰 프라이버시와 통제력을 제공한다.

H2O
H2O는 여러 머신러닝 솔루션을 탐색하는 자동화된 스택을 설명하기 위해 ‘드라이버리스 AI’(driverless AI)라는 용어를 사용하곤 한다. 여러 데이터 소스(데이터베이스, 하둡, 스파크 등)를 연계시키고 광범위한 파라미터를 통해 다양한 알고리즘에 공급한다. 이 툴을 이용해 사용자는 시간의 양을 관리하고 문제에 할당된 자원을 연산하며, 예산의 범위 안에서 다양한 파라미터의 조합을 시험할 수 있다. 도출된 결과는 대시보드나 주피터 노트를 통해 탐색 및 감사할 수 있다.

H2O의 핵심 머신러닝 알고리즘과 스파크 등의 툴과의 통합은 오픈소스이지만 소위 말하는 "드라이버리스" 옵션은 기업 고객들에게 지원과 함께 판매되는 전매 특허 기능 중 하나이다.

래피드마이너(RapidMiner)
래피드마이너 생태계의 핵심은 시각적 아이콘에서 데이터 분석을 생성하는 스튜디오다. 끌어다 놓으면 데이터를 정리한 후 일련의 통계 알고리즘을 실행하는 파이프라인이 생성된다. 일부 더욱 전통적인 데이터 사이언스 대신에 머신러닝을 사용하고 싶다면 오토 모델이 여러 분류 알고리즘 중에서 선택하고 다양한 파라미터를 조사하여 가장 적합한 것을 찾아낸다. 이 툴의 목적은 수백 개의 모델을 생성한 후 최고를 식별하는 것이다.

모델이 생성된 후 툴이 배치하고 성공률을 시험하며 모델의 의사 결정 방식을 설명할 수 있다. 다양한 데이터 필드에 대한 민감도를 시험하고 시각적인 워크플로 편집기로 조정할 수 있다.

최근 개선사항으로는 더 나은 텍스트 분석, 시각적 대시보드를 구축하기 위한 더욱 다양한 차트, 시계열 데이터를 분석하기 위한 더욱 복잡한 알고리즘이 있다.

BigML
BigML 대시보드는 머신러닝을 통해 더욱 복잡한 작업을 위한 기초를 구성할 수 있는 상관관계를 식별하는 모든 기본적인 데이터 사이언스용 툴을 제공한다. 예를 들어, 딥네츠(Deepnets)는 더욱 정교한 신경망을 시험하고 최적화하기 위한 복잡한 메커니즘을 제공한다. 모델의 품질을 전통적인 데이터 사이언스와 더욱 복잡한 머신러닝 사이에서 선택하는데 도움이 되는 표준화된 비교 프레임워크를 통해 다른 알고리즘과 비교할 수 있다.

BigML의 대시보드는 브라우저에서 작동하며 분석은 BigML 클라우드나 서버실의 설비에서 실행된다. 클라우드 버전의 가격은 조기 실험을 도모하기 위해 낮게 책정되어 있으며 무료 계층도 있다. 

비용은 대부분 데이터 세트의 크기에 대한 제한과 적용할 수 있는 연산 자원의 양으로 결정된다. 무료 티어(Tier)는 병렬로 작동하는 2개 이하의 프로세스를 사용하여 최대 16MB의 데이터를 분석한다. 저렴한 유료 계정은 월 요금이 30달러로 합리적이지만 필요 자원이 증가하면서 비용이 상승한다.

R 스튜디오(R Studio)
R은 프로그래머가 아닌 사람이 사용하기에 쉬운 언어는 아니지만 본격적인 데이터 사이언티스트들에게 매우 인기가 높기 때문에 정밀한 통계 분석을 위한 필수 툴 중 하나다. R 스튜디오는 일련의 메뉴와 마우스 클릭 옵션을 제공하기 때문에 사용자가 더 쉽게 내부 깊숙한 곳에서 작동하는 R과 상호작용할 수 있다.

스프레드시트를 처리할 수 있는 복잡한 관리자는 가장 단순한 옵션을 이용해 기본적인 분석과 일부 복잡한 분석을 실행할 수 있다. 불필요하게 어려운 부분이 있으며 일반 사용자들이 헷갈릴 수 있는 부분도 있지만 시간을 투자할 생각이 있는 사람이라면 누구나 바로 사용할 수 있다. 여전히 혼란스러운 부분이 있을 수 있지만 첨단 툴을 탐구하고 싶은 사람에게는 가치가 있을 수 있다. ciokr@idg.co.kr



2019.09.09

머신러닝을 더 쉽게 만드는 6가지 도구

Peter Wayner | CIO
‘머신러닝(ML)’이라는 말은 마법 같은 아우라로 가득 차 있다. 기계가 학습하도록 가르치기란 아직 일반인의 영역으로 보기 어렵다. 오늘날 이 용어는 데이터를 금으로 바꾸는 데이터 사이언티스트 같은 매우 전문적인 연금술사들의 영역이다.
 
ⓒ Image Credit : Getty Images Bank


단 이제 머신러닝 툴은 약간의 용기와 동기만 있다면 누구나 버튼을 눌러 기계가 중요한 것을 학습할 수 있도록 하는 수준으로 발전해가고 있다. 단번에 되는 정도는 아니더라도 데이터를 모아 실행 가능한 통찰력으로 바꾸는 작업이 충분히 자동화되어가는 중이며, 동기를 가진 스마트한 사람들이라면 도전할만한 수준으로 진보했다. 

이런 느린 르네상스는 비즈니스 세계의 많은 사람들이 이미 데이터를 꽤 능숙하게 다루게 되면서 이뤄졌다. 숫자로 가득 찬 스프레드시트는 모든 비즈니스의 의사 결정자들의 언어다. 머신러닝을 다루게 해주는 각종 새로운 툴은 기본적으로 테이블 데이터를 유용한 답변으로 바꾸는 여러 전략과 옵션의 조합이다.

이 툴의 강점은 데이터 수집, 가능한 경우 구조와 일관성 추가, 계산 시작 등의 번거로운 작업을 처리할 수 있는 능력이다. 데이터 수집 과정과 정보를 행과 열로 유지하는 단조로운 작업이 간소화된다.

이 툴은 아직 이 모든 학습을 스스로 수행할 만큼 충분히 스마트하지 못하다. 적절한 질문을 던지고 적절한 곳을 살펴야 한다. 하지만 이 툴을 통해 더욱 신속하게 답을 얻을 수 있기 때문에 더 넓은 영역을 담당하고 더 많은 곳을 조사할 수 있게 된다. 

AutoML : 머신러닝의 민주화
최근 머신러닝 알고리즘 분야에는 추가적인 자동화 메타 계층이 수반된다는 의미의 새로운 유행어인 ‘AutoML’이 등장했다. 전통적인 알고리즘은 옵션과 파라미터가 많았다. 데이터 사이언티스트들은 종종 예측 가능성이 가장 높은 규칙을 찾을 때까지 이런 것들을 조정하느라 시간의 80-99%를 소요하곤 한다.

AutoML은 여러 옵션을 시도하고 시험한 후 추가적인 작업를 거쳐 이 단계를 자동화한다. 머신러닝 알고리즘을 한 번 실행하는 대신에 N회 실행하고 조정하며 N회 다시 실행한다. 예산, 돈, 또는 인내심이 허락하는 한 가능하다. 

클라우드에서는 AutoML 툴이 충분한 머신을 생성하여 병렬로 실행한 후 완료되었을 때 풀(Pool)로 되돌려 보낼 수 있다. 따라서 이 툴은 클라우드 컴퓨팅에 적합한 특성을 지닌다. 첨두 연산 시간에 대해서만 비용을 지불하면 되기 때문이다.

일반적으로 AutoML 알고리즘은 스스로 머신러닝을 연구하기 시작하는 사람들에게 좋은 옵션이다. 자동화는 결과 시험 전 기본적인 파라미터 설정 및 옵션 선택 작업 중 일부를 처리함으로써 작업을 간소화한다. 사용자가 더욱 발전하고 결과를 이해하기 시작하면서 이런 작업 중 하나를 처리하고 스스로 값을 설정할 수 있다.

최신 시스템은 머신이 학습할 수 있는 방법을 더 쉽게 이해할 수 있게 해준다. 전통적인 프로그래밍이 규칙과 데이터를 답변으로 바꾸는 경우 머신러닝 알고리즘은 역으로 작용하여 답변과 데이터를 규칙으로 바꿀 수 있다. 이 규칙을 통해 기업 속 깊은 곳에서 무슨 일이 벌어지고 있는지 배울 수도 있다. 이런 간소화될 툴을 개발하는 사람들은 알고리즘이 발견한 규칙과 더욱 중요한 결과를 재현하는 방법을 설명하는 인터페이스도 개발하고 있다. 

머신러닝을 더 쉽게 하는 6가지 툴
이 모든 기능 덕분에 숫자, 스프레드시트, 데이터를 다루는 사람들은 프로그래밍과 데이터 사이언스에 능하지 않고도 머신러닝의 세계에 들어갈 수 있게 되었다. 아래의 6가지 옵션은 숫자의 바다에서 머신러닝 알고리즘을 이용해 답을 찾는 과정을 간소화해주는 것들이다. 

스플렁크(Splunk)
스플렁크의 오리지널 버전은 현대적인 웹 애플리케이션이 생성한 대량의 로그 파일을 조사(또는 ‘탐구’)하는 툴로 시작됐다. 그 이후로 시계열 및 기타 순차 생성 데이터의 모든 형태를 분석하는 수준으로 발전했다. 이 툴은 복잡한 시각화 루틴을 통해 결과를 대시보드로 제공한다. 

최신 버전에는 데이터 소스를 텐서플로우 같은 머신러닝 툴 및 최고의 파이썬 오픈소스 툴과 통합하는 앱이 포함되어 있다. 이것들은 이상점을 감지하고 이상을 표시하며 미래의 값을 예측하는 간단한 솔루션을 제공한다. 매우 큰 데이터세트에서 단초를 찾는데 특화되어 있다.


데이터로봇(DataRobot)
데이터로봇의 스택 내부에는 R, 파이썬, 기타 여러 플랫폼으로 작성된 최고의 오픈소스 머신 라이브러리들이 포함되어 있다. 파이프라인을 설정하기 위한 흐름도 스타일의 툴을 표시하는 웹 인터페이스만 다루면 된다. 

데이터로봇은 로컬 데이터베이스, 클라우드 데이터스토어, 다운로드 된 파일 또는 스프레드시트 등 모든 주요 데이터 소스에 연결된다. 구축한 파이프라인은 데이터를 지우고 누락된 값을 채우며 이상점을 표시하고 미래의 값을 예측하는 모델을 생성할 수 있다.

또한 데이터로봇은 특정 예측의 근거에 관해 ‘인간 친화적인 설명’을 제공하기 위해 시도할 수 있으며, 이는 AI가 작동하는 방식을 이해하는데 유용한 기능이다.

클라우드 및 구내 솔루션을 결합하여 배치할 수 있다. 클라우드에서의 실행은 공유 자원을 통해 극대화된 병렬화 및 처리량을 제공할 수 있으며 로컬 설치는 더 큰 프라이버시와 통제력을 제공한다.

H2O
H2O는 여러 머신러닝 솔루션을 탐색하는 자동화된 스택을 설명하기 위해 ‘드라이버리스 AI’(driverless AI)라는 용어를 사용하곤 한다. 여러 데이터 소스(데이터베이스, 하둡, 스파크 등)를 연계시키고 광범위한 파라미터를 통해 다양한 알고리즘에 공급한다. 이 툴을 이용해 사용자는 시간의 양을 관리하고 문제에 할당된 자원을 연산하며, 예산의 범위 안에서 다양한 파라미터의 조합을 시험할 수 있다. 도출된 결과는 대시보드나 주피터 노트를 통해 탐색 및 감사할 수 있다.

H2O의 핵심 머신러닝 알고리즘과 스파크 등의 툴과의 통합은 오픈소스이지만 소위 말하는 "드라이버리스" 옵션은 기업 고객들에게 지원과 함께 판매되는 전매 특허 기능 중 하나이다.

래피드마이너(RapidMiner)
래피드마이너 생태계의 핵심은 시각적 아이콘에서 데이터 분석을 생성하는 스튜디오다. 끌어다 놓으면 데이터를 정리한 후 일련의 통계 알고리즘을 실행하는 파이프라인이 생성된다. 일부 더욱 전통적인 데이터 사이언스 대신에 머신러닝을 사용하고 싶다면 오토 모델이 여러 분류 알고리즘 중에서 선택하고 다양한 파라미터를 조사하여 가장 적합한 것을 찾아낸다. 이 툴의 목적은 수백 개의 모델을 생성한 후 최고를 식별하는 것이다.

모델이 생성된 후 툴이 배치하고 성공률을 시험하며 모델의 의사 결정 방식을 설명할 수 있다. 다양한 데이터 필드에 대한 민감도를 시험하고 시각적인 워크플로 편집기로 조정할 수 있다.

최근 개선사항으로는 더 나은 텍스트 분석, 시각적 대시보드를 구축하기 위한 더욱 다양한 차트, 시계열 데이터를 분석하기 위한 더욱 복잡한 알고리즘이 있다.

BigML
BigML 대시보드는 머신러닝을 통해 더욱 복잡한 작업을 위한 기초를 구성할 수 있는 상관관계를 식별하는 모든 기본적인 데이터 사이언스용 툴을 제공한다. 예를 들어, 딥네츠(Deepnets)는 더욱 정교한 신경망을 시험하고 최적화하기 위한 복잡한 메커니즘을 제공한다. 모델의 품질을 전통적인 데이터 사이언스와 더욱 복잡한 머신러닝 사이에서 선택하는데 도움이 되는 표준화된 비교 프레임워크를 통해 다른 알고리즘과 비교할 수 있다.

BigML의 대시보드는 브라우저에서 작동하며 분석은 BigML 클라우드나 서버실의 설비에서 실행된다. 클라우드 버전의 가격은 조기 실험을 도모하기 위해 낮게 책정되어 있으며 무료 계층도 있다. 

비용은 대부분 데이터 세트의 크기에 대한 제한과 적용할 수 있는 연산 자원의 양으로 결정된다. 무료 티어(Tier)는 병렬로 작동하는 2개 이하의 프로세스를 사용하여 최대 16MB의 데이터를 분석한다. 저렴한 유료 계정은 월 요금이 30달러로 합리적이지만 필요 자원이 증가하면서 비용이 상승한다.

R 스튜디오(R Studio)
R은 프로그래머가 아닌 사람이 사용하기에 쉬운 언어는 아니지만 본격적인 데이터 사이언티스트들에게 매우 인기가 높기 때문에 정밀한 통계 분석을 위한 필수 툴 중 하나다. R 스튜디오는 일련의 메뉴와 마우스 클릭 옵션을 제공하기 때문에 사용자가 더 쉽게 내부 깊숙한 곳에서 작동하는 R과 상호작용할 수 있다.

스프레드시트를 처리할 수 있는 복잡한 관리자는 가장 단순한 옵션을 이용해 기본적인 분석과 일부 복잡한 분석을 실행할 수 있다. 불필요하게 어려운 부분이 있으며 일반 사용자들이 헷갈릴 수 있는 부분도 있지만 시간을 투자할 생각이 있는 사람이라면 누구나 바로 사용할 수 있다. 여전히 혼란스러운 부분이 있을 수 있지만 첨단 툴을 탐구하고 싶은 사람에게는 가치가 있을 수 있다. ciokr@idg.co.kr



X