2016.02.12

토픽 브리핑 | 인기 최정점에 선 머신러닝에 대해 알아보자

이대영 기자 | ITWorld
최근 구글의 머신러닝 기반의 인공지능 바둑 알고리듬인 알파고(AlphaGo)와 이세돌 9단과 바둑 대결이 학계와 IT업계는 물론, 일반인들에게도 큰 관심을 끌고 있다.

구글의 모기업인 알파벳(Alphabet)과 바둑(Go)의 합성어인 '알파고'는 딥마인드의 머신러닝과 시스템 신경과학 분야의 기술을 활용해 고전 전략 게임인 바둑에서 프로 바둑 기사를 이길 수 있도록 설계된 인공지능 프로그램이다.

바둑은 인간이 즐기는 경기 가운데 가장 많은 경우의 수를 갖고 있는 굉장히 복잡한 게임으로 컴퓨터가 프로 기사를 이기는 것은 아주 오랜 시간이 걸릴 것으로 예상되어 왔다. 그러나 알파고 팀은 유럽 바둑 챔피언인 판후이를 런던 사무실로 초청해 경기를 진행했는데, 알파고가 판후이를 5대 0으로 이겨 프로 기사를 이긴 최초의 프로그램이 되었다. 2016년 3월, 알파고는 서울에서 이세돌 9단과 경기를 진행할 예정이다.

2014년 1월, 구글은 영국 런던의 인공지능업체인 딥마인드(DeepMind)를 인수했는데, 이 인수전에는 IBM, 페이스북 등이 참여했었다.

구글, 이번엔 인공지능 업체 인수 … 대용량 데이터 분석 알고리듬 강화
구글 딥마인드, 게임법을 스스로 터득하는 'DQN' 개발

머신러닝(Machine Learning)이란 알고리즘을 기반으로 컴퓨터를 학습시킴으로써 방대한 데이터를 분석해 그 결과를 예측하는 것을 말한다. 직역하면 기계학습이라고 부르는 이 기술은 인공지능(Artificial Intelligence)의 한분야로 빅데이터 핵심 기술로 각광받고 있다.

ITWorld 용어풀이 | 머신 러닝(Machine Learning)
“기계에 지능을 더하는” 머신러닝의 이해 - IDG Tech Report

머신러닝은 데이터를 수집, 분석해 미래를 예측한다는 목적은 여타 빅데이터 분석과 유사하지만 컴퓨터 스스로가 방대한 데이터를 수집, 학습할 수 있다는 점에서 차이를 두고 있다.
또한 인공지능에서 빠질 수 없이 거론되는 딥 러닝(Deep learning)은 머신러닝 기법 가운데 하나로, 머신러닝의 가장 어려운 문제를 해결할 잠재력을 지닌 지도 러닝(supervised learning) 기술이다.

머신러닝 입문 가이드 - IDG Deep Dive

머신러닝의 기술적인 토대가 만들어진 시기는 50여 년 전이지만 얼마 전까지만 해도 학계를 벗어나면 머신러닝의 인지도는 미미했다. 머신러닝에는 막대한 컴퓨팅 자원이 필요한데, 이를 비용 효율적으로 사용할 수 있는 인프라를 갖추기 어려웠기 때문이다.

최근 머신러닝에 대한 관심과 활동이 폭증한 이유는 다음과 같다.
- 무어의 법칙(Moore's Law)으로 컴퓨팅 비용이 급격히 낮아져 지금은 최소한의 비용으로 강력한 컴퓨팅 성능을 폭넓게 이용할 수 있다.
- 새롭고 혁신적인 알고리즘이 더욱 빠른 결과를 제공한다.
- 데이터 과학자들이 머신러닝을 효과적으로 적용하기 위한 이론과 실무 지식을 축적했다.

무엇보다 빅데이터가 대대적으로 도입되면서 일반적인 통계 기술로는 해결이 불가능한 분석 문제가 발생했다. '필요가 곧 발명을 낳는다'는 말이 있듯 기존 통계 분석 방법으로 풀 수 없는 비즈니스 과제들이 발생해 새로운 빅데이터 분석기술이 필요하게 된 것이다.

“머신러닝이 다시금 주목을 받을 수 있었던 이유는...” 서울대 노영균 교수

머신러닝이 현재 부상하는 기술이라고 하지만 실제 적용된 사례는 이미 상당히 많다. 사기 방지, 타겟팅 디지털 디스플레이, 콘텐츠 추천, 자동차 품질 개선, 유망 잠재 고객에 집중, 미디어 최적화, 의료보건 서비스 개선 등 전 산업군에 걸쳐 활용되고 있다.

머신러닝, 소프트웨어 버그 수정에 탁월…10배 성능과 파급 효과 기대 : MIT

이런 무궁무진한 가능성으로 인해 구글, 야후, 네이버, 카카오 등 초대형 데이터를 다루는 업체뿐만 아니라 IBM, 마이크로소프트, SAS, 스플렁크와 같은 빅데이터 솔루션 업체들도 머신러닝 전문업체들을 인수하는 등 대규모 투자를 아끼지 않고 있다.

IBM, 스파크 기반의 머신 러닝 서비스 예정…블루믹스와 통합
MS, 데이터 예측 분석 서비스 ‘애저 머신 러닝’ 국내 출시
스플렁크, '스플렁크라이브!' 개최...신제품 대거 출시
“SAS코리아, 국내 BI 및 고급 분석 툴 소프트웨어 시장 선도”...한국 IDC

현재 머신러닝 분야에서 빠른 행보를 하는 업체는 단연 구글이다. 머신러닝을 위시한 인공지능에 사활을 걸고 있는 구글은 관련 기술에 집중 투자를 하면서 세간의 이목을 집중시키고 있다.

구글 CEO 피차이는 "머신러닝과 인공지능에 대한 구글의 투자는 최우선순위 사업"이라며 "머신러닝과 인공지능을 검색, 광고, 유튜브, 구글 플레이 등 모든 제품에 적용하고 있다. 아직 초기 단계지만, 곧 조직적인 구글의 인공지능 사업이 윤곽을 드러낼 것이다. 모든 분야에 머신러닝이 적용되는 세상을 상상해 보라"고 강조했다.

‘머신러닝의 중요성 강조한’ 구글 알파벳의 첫 실적 발표
구글 인박스, 머신러닝으로 이메일 답장 속도 높인다
구글, “머신러닝으로 스팸 메일 잡는다”…지메일 관리 도구 포스트마스터 개발

특히 구글은 2015년 11월 앱의 지능 향상을 목표로 하는 머신러닝 프로젝트인 텐서플로우(TensorFlow)를 오픈소스로 공개했다. 텐서플로우는 스마트폰과 데이터센터의 수천만 대 컴퓨터에서 모두 실행할 수 있는 구글의 차세대 내부 머신러닝 시스템이다.

구글, 오픈소스 툴 ‘텐서플로우’공개… 머신러닝 기술 외부로 오픈한다
구글의 텐서플로우 공개가 중요한 4가지 이유

구글이 이를 오픈소스화함으로써 머신러닝 기술은 오픈소스라는 새로운 발전 동력원이 생겼다.  구글이 텐서플로우를 오픈소스로 공개한 지 며칠이 지나지 않아 마이크로소프트도 DMLT(Distributed Machine Learning Toolkit)이라는 자체 머신러닝 프로젝트를 오픈소스로 공개, 배포했다.

MS, 머신러닝 오픈소스 툴킷 DMLT 공개

이어 야후는 머신러닝 과학자들을 대상으로 지금까지 중 가장 큰 데이터 집합을 공개했다. 공개된 데이터는 사용자가 뉴스를 클릭한 시간, 뉴스 피드를 본 후의 활동 등을 담은 총 1,100억 건의 기록이며, 용량은 13.5TB, 또는 압축해서 1.5TB다. 야후는 지난 번 공개된 데이터 집합보다 약 10배 더 큰 규모라고 밝혔다. 야후는 지난 해에도 마케팅 업체 크리테오(Criteo)를 통해 1TB 용량에 40억 건의 데이터를 공개한 바 있다.

야후는 "데이터는 머신러닝 연구의 생명선과 같다"며, "그러나 진정한 대규모 데이터 집합에 접근하는 것은 대형 업체 소속의 머신러닝 연구자, 데이터 과학자에게만 허락된 특권이었고, 학계 연구자에게는 매우 어려웠다"고 데이터 공개 목적을 밝혔다.

"관대한 야후", 1,100억 건 사용자 행동 데이터 머신러닝 연구용으로 공개

그러나 현재 밝혀진 머신러닝 기술 속에는 상당한 거품이 존재한다는 시각도 있다. 가트너는 2015년 주목해야 할 미래 기술 분야로 머신러닝을 선정한 바 있다. 하지만, 2015년 신기술 하이프 사이클에서는 빅데이터를 대신해 최정점에 위치하면서 허황된 기대가 가장 극심한 수준인 5개 기술 가운데 하나로 지목했다.

출처. 가트너 2015

글로벌 칼럼 | 머신러닝과 달콤한 가짜 약

머신러닝 전문가들은 이런 주장을 일축한다. 현재 머신러닝은 과대포장된 것이 아니라 오히려 과소평가를 받고 있다는 것이다.

하버드 대학 정량사회과학(Quantitative Social Science) 연구소 책임자 개리 킹은 "머신러닝은 결코 헛된 망상이 아니지만 그렇다고 무슨 일이든 척척 해낸다는 의미는 아니다"며, "지금은 머신러닝이 효과를 제대로 발휘하지 못하는 분야가 있으며, 머신러닝을 사용해 좋은 결과를 얻지 못하는 경우도 많지만 이를 이끄는 것이 숙련된 인력"이라고 설명했다.

머신러닝이 데이터 깊숙이 묻혀 있는 패턴을 발견해준다는 점에서 애플리케이션의 성능을 높이고, 사용자의 수요에 더욱 민감하게 만들 수 있다는 잠재력이 있다. 제대로 고안한 알고리즘을 통해 인간의 사고와 분석적 한계를 뛰어넘어 엄청난 양의 이질적인 데이터로부터 가치를 뽑아낼 수 있다는 것이다.

머신러닝은 개발자가 비즈니스에 필수적인 분석을 그 어떤 애플리케이션에도 적용하고, 고객 경험을 높이거나 제품 추천을 제공하고, 더욱 개인화된 콘텐츠를 제공하는 것까지 달성하게 해준다.

아마존과 마이크로소프트와 같은 클라우드 제공업체들은 개발자가 머신러닝을 손쉽게 통합할 수 있는 클라우드 기반의 솔루션을 제공함으로써 최근 화제를 불러일으켰다. 무엇인가 굉장해 보이기는 하나, 개발자들의 주의가 필요해 보인다.

클라우드 기반의 머신러닝 도구는 개발자가 머신러닝을 활용하여 참신한 기능을 구현할 수 있도록 한다. 하지만 이런 도구를 적절하게 활용하지 않으면 형편없는 결과로 사용자에게 좌절감을 줄 수 있다.

마이크로소프트의 나이 감지 머신러닝 도구를 시험해본 사람이라면 알겠지만, 사용 편의성이 뛰어난 만큼 중대한 정확도 문제가 대두한 바 있으며, 신뢰하거나 중요한 의사를 결정할 때 참조할 수 없는 경우도 많다.

머신러닝을 자신의 애플리케이션에 도입하려는 개발자는 성공을 위한 일부 핵심 요소를 염두해야 한다. 결국 머신러닝 기술 또한 무조건 도입한다고 효과를 얻을 수 있는 만능의 비약이 아니라 관련 데이터를 수집, 분석해 미래를 예측하는 도구에 불과하다는 점을 인지해야 한다. editor@itworld.co.kr
개발자들을 위한 성공적인 머신러닝의 10가지 핵심 요소
기계 학습을 최대한 활용할 수 있는 11가지 오픈소스 도구


2016.02.12

토픽 브리핑 | 인기 최정점에 선 머신러닝에 대해 알아보자

이대영 기자 | ITWorld
최근 구글의 머신러닝 기반의 인공지능 바둑 알고리듬인 알파고(AlphaGo)와 이세돌 9단과 바둑 대결이 학계와 IT업계는 물론, 일반인들에게도 큰 관심을 끌고 있다.

구글의 모기업인 알파벳(Alphabet)과 바둑(Go)의 합성어인 '알파고'는 딥마인드의 머신러닝과 시스템 신경과학 분야의 기술을 활용해 고전 전략 게임인 바둑에서 프로 바둑 기사를 이길 수 있도록 설계된 인공지능 프로그램이다.

바둑은 인간이 즐기는 경기 가운데 가장 많은 경우의 수를 갖고 있는 굉장히 복잡한 게임으로 컴퓨터가 프로 기사를 이기는 것은 아주 오랜 시간이 걸릴 것으로 예상되어 왔다. 그러나 알파고 팀은 유럽 바둑 챔피언인 판후이를 런던 사무실로 초청해 경기를 진행했는데, 알파고가 판후이를 5대 0으로 이겨 프로 기사를 이긴 최초의 프로그램이 되었다. 2016년 3월, 알파고는 서울에서 이세돌 9단과 경기를 진행할 예정이다.

2014년 1월, 구글은 영국 런던의 인공지능업체인 딥마인드(DeepMind)를 인수했는데, 이 인수전에는 IBM, 페이스북 등이 참여했었다.

구글, 이번엔 인공지능 업체 인수 … 대용량 데이터 분석 알고리듬 강화
구글 딥마인드, 게임법을 스스로 터득하는 'DQN' 개발

머신러닝(Machine Learning)이란 알고리즘을 기반으로 컴퓨터를 학습시킴으로써 방대한 데이터를 분석해 그 결과를 예측하는 것을 말한다. 직역하면 기계학습이라고 부르는 이 기술은 인공지능(Artificial Intelligence)의 한분야로 빅데이터 핵심 기술로 각광받고 있다.

ITWorld 용어풀이 | 머신 러닝(Machine Learning)
“기계에 지능을 더하는” 머신러닝의 이해 - IDG Tech Report

머신러닝은 데이터를 수집, 분석해 미래를 예측한다는 목적은 여타 빅데이터 분석과 유사하지만 컴퓨터 스스로가 방대한 데이터를 수집, 학습할 수 있다는 점에서 차이를 두고 있다.
또한 인공지능에서 빠질 수 없이 거론되는 딥 러닝(Deep learning)은 머신러닝 기법 가운데 하나로, 머신러닝의 가장 어려운 문제를 해결할 잠재력을 지닌 지도 러닝(supervised learning) 기술이다.

머신러닝 입문 가이드 - IDG Deep Dive

머신러닝의 기술적인 토대가 만들어진 시기는 50여 년 전이지만 얼마 전까지만 해도 학계를 벗어나면 머신러닝의 인지도는 미미했다. 머신러닝에는 막대한 컴퓨팅 자원이 필요한데, 이를 비용 효율적으로 사용할 수 있는 인프라를 갖추기 어려웠기 때문이다.

최근 머신러닝에 대한 관심과 활동이 폭증한 이유는 다음과 같다.
- 무어의 법칙(Moore's Law)으로 컴퓨팅 비용이 급격히 낮아져 지금은 최소한의 비용으로 강력한 컴퓨팅 성능을 폭넓게 이용할 수 있다.
- 새롭고 혁신적인 알고리즘이 더욱 빠른 결과를 제공한다.
- 데이터 과학자들이 머신러닝을 효과적으로 적용하기 위한 이론과 실무 지식을 축적했다.

무엇보다 빅데이터가 대대적으로 도입되면서 일반적인 통계 기술로는 해결이 불가능한 분석 문제가 발생했다. '필요가 곧 발명을 낳는다'는 말이 있듯 기존 통계 분석 방법으로 풀 수 없는 비즈니스 과제들이 발생해 새로운 빅데이터 분석기술이 필요하게 된 것이다.

“머신러닝이 다시금 주목을 받을 수 있었던 이유는...” 서울대 노영균 교수

머신러닝이 현재 부상하는 기술이라고 하지만 실제 적용된 사례는 이미 상당히 많다. 사기 방지, 타겟팅 디지털 디스플레이, 콘텐츠 추천, 자동차 품질 개선, 유망 잠재 고객에 집중, 미디어 최적화, 의료보건 서비스 개선 등 전 산업군에 걸쳐 활용되고 있다.

머신러닝, 소프트웨어 버그 수정에 탁월…10배 성능과 파급 효과 기대 : MIT

이런 무궁무진한 가능성으로 인해 구글, 야후, 네이버, 카카오 등 초대형 데이터를 다루는 업체뿐만 아니라 IBM, 마이크로소프트, SAS, 스플렁크와 같은 빅데이터 솔루션 업체들도 머신러닝 전문업체들을 인수하는 등 대규모 투자를 아끼지 않고 있다.

IBM, 스파크 기반의 머신 러닝 서비스 예정…블루믹스와 통합
MS, 데이터 예측 분석 서비스 ‘애저 머신 러닝’ 국내 출시
스플렁크, '스플렁크라이브!' 개최...신제품 대거 출시
“SAS코리아, 국내 BI 및 고급 분석 툴 소프트웨어 시장 선도”...한국 IDC

현재 머신러닝 분야에서 빠른 행보를 하는 업체는 단연 구글이다. 머신러닝을 위시한 인공지능에 사활을 걸고 있는 구글은 관련 기술에 집중 투자를 하면서 세간의 이목을 집중시키고 있다.

구글 CEO 피차이는 "머신러닝과 인공지능에 대한 구글의 투자는 최우선순위 사업"이라며 "머신러닝과 인공지능을 검색, 광고, 유튜브, 구글 플레이 등 모든 제품에 적용하고 있다. 아직 초기 단계지만, 곧 조직적인 구글의 인공지능 사업이 윤곽을 드러낼 것이다. 모든 분야에 머신러닝이 적용되는 세상을 상상해 보라"고 강조했다.

‘머신러닝의 중요성 강조한’ 구글 알파벳의 첫 실적 발표
구글 인박스, 머신러닝으로 이메일 답장 속도 높인다
구글, “머신러닝으로 스팸 메일 잡는다”…지메일 관리 도구 포스트마스터 개발

특히 구글은 2015년 11월 앱의 지능 향상을 목표로 하는 머신러닝 프로젝트인 텐서플로우(TensorFlow)를 오픈소스로 공개했다. 텐서플로우는 스마트폰과 데이터센터의 수천만 대 컴퓨터에서 모두 실행할 수 있는 구글의 차세대 내부 머신러닝 시스템이다.

구글, 오픈소스 툴 ‘텐서플로우’공개… 머신러닝 기술 외부로 오픈한다
구글의 텐서플로우 공개가 중요한 4가지 이유

구글이 이를 오픈소스화함으로써 머신러닝 기술은 오픈소스라는 새로운 발전 동력원이 생겼다.  구글이 텐서플로우를 오픈소스로 공개한 지 며칠이 지나지 않아 마이크로소프트도 DMLT(Distributed Machine Learning Toolkit)이라는 자체 머신러닝 프로젝트를 오픈소스로 공개, 배포했다.

MS, 머신러닝 오픈소스 툴킷 DMLT 공개

이어 야후는 머신러닝 과학자들을 대상으로 지금까지 중 가장 큰 데이터 집합을 공개했다. 공개된 데이터는 사용자가 뉴스를 클릭한 시간, 뉴스 피드를 본 후의 활동 등을 담은 총 1,100억 건의 기록이며, 용량은 13.5TB, 또는 압축해서 1.5TB다. 야후는 지난 번 공개된 데이터 집합보다 약 10배 더 큰 규모라고 밝혔다. 야후는 지난 해에도 마케팅 업체 크리테오(Criteo)를 통해 1TB 용량에 40억 건의 데이터를 공개한 바 있다.

야후는 "데이터는 머신러닝 연구의 생명선과 같다"며, "그러나 진정한 대규모 데이터 집합에 접근하는 것은 대형 업체 소속의 머신러닝 연구자, 데이터 과학자에게만 허락된 특권이었고, 학계 연구자에게는 매우 어려웠다"고 데이터 공개 목적을 밝혔다.

"관대한 야후", 1,100억 건 사용자 행동 데이터 머신러닝 연구용으로 공개

그러나 현재 밝혀진 머신러닝 기술 속에는 상당한 거품이 존재한다는 시각도 있다. 가트너는 2015년 주목해야 할 미래 기술 분야로 머신러닝을 선정한 바 있다. 하지만, 2015년 신기술 하이프 사이클에서는 빅데이터를 대신해 최정점에 위치하면서 허황된 기대가 가장 극심한 수준인 5개 기술 가운데 하나로 지목했다.

출처. 가트너 2015

글로벌 칼럼 | 머신러닝과 달콤한 가짜 약

머신러닝 전문가들은 이런 주장을 일축한다. 현재 머신러닝은 과대포장된 것이 아니라 오히려 과소평가를 받고 있다는 것이다.

하버드 대학 정량사회과학(Quantitative Social Science) 연구소 책임자 개리 킹은 "머신러닝은 결코 헛된 망상이 아니지만 그렇다고 무슨 일이든 척척 해낸다는 의미는 아니다"며, "지금은 머신러닝이 효과를 제대로 발휘하지 못하는 분야가 있으며, 머신러닝을 사용해 좋은 결과를 얻지 못하는 경우도 많지만 이를 이끄는 것이 숙련된 인력"이라고 설명했다.

머신러닝이 데이터 깊숙이 묻혀 있는 패턴을 발견해준다는 점에서 애플리케이션의 성능을 높이고, 사용자의 수요에 더욱 민감하게 만들 수 있다는 잠재력이 있다. 제대로 고안한 알고리즘을 통해 인간의 사고와 분석적 한계를 뛰어넘어 엄청난 양의 이질적인 데이터로부터 가치를 뽑아낼 수 있다는 것이다.

머신러닝은 개발자가 비즈니스에 필수적인 분석을 그 어떤 애플리케이션에도 적용하고, 고객 경험을 높이거나 제품 추천을 제공하고, 더욱 개인화된 콘텐츠를 제공하는 것까지 달성하게 해준다.

아마존과 마이크로소프트와 같은 클라우드 제공업체들은 개발자가 머신러닝을 손쉽게 통합할 수 있는 클라우드 기반의 솔루션을 제공함으로써 최근 화제를 불러일으켰다. 무엇인가 굉장해 보이기는 하나, 개발자들의 주의가 필요해 보인다.

클라우드 기반의 머신러닝 도구는 개발자가 머신러닝을 활용하여 참신한 기능을 구현할 수 있도록 한다. 하지만 이런 도구를 적절하게 활용하지 않으면 형편없는 결과로 사용자에게 좌절감을 줄 수 있다.

마이크로소프트의 나이 감지 머신러닝 도구를 시험해본 사람이라면 알겠지만, 사용 편의성이 뛰어난 만큼 중대한 정확도 문제가 대두한 바 있으며, 신뢰하거나 중요한 의사를 결정할 때 참조할 수 없는 경우도 많다.

머신러닝을 자신의 애플리케이션에 도입하려는 개발자는 성공을 위한 일부 핵심 요소를 염두해야 한다. 결국 머신러닝 기술 또한 무조건 도입한다고 효과를 얻을 수 있는 만능의 비약이 아니라 관련 데이터를 수집, 분석해 미래를 예측하는 도구에 불과하다는 점을 인지해야 한다. editor@itworld.co.kr
개발자들을 위한 성공적인 머신러닝의 10가지 핵심 요소
기계 학습을 최대한 활용할 수 있는 11가지 오픈소스 도구


X