Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

학습

글로벌 칼럼 | AI/ML 학습용 데이터, 어느 정도가 충분한 것일까

인공지능(AI)의 한계이자 미래는 결국 사람이다. 사람 같은 로봇의 등장을 기대하든 우려하든 상관없이 결국 이 문제가 사람에 달렸다는 사실은 변한 적이 없다. AI 그리고 데이터 과학에서 가장 이상적인 해법은 사람과 기계의 장점을 합치는 것이다. 한동안 AI 업계의 지지자들은 이 방정식의 기계 쪽에 집중하는 경향을 보였다. 하지만 스프링 헬스(Spring Health)의 데이터 과학자 엘레나 다이아크코바에 따르면, 데이터와 그 이면에 있는 기계는 사람이 유용하다고 '이해하는 만큼만' 쓸모가 있다. 이 주제를 더 진전시켜 보자.     불완전한 데이터와 합리적인 의사결정 다이아크코바가 앰플리파이 파트너(Amplify Partners)의 제너럴 파트너인 사라 카탄자로가 주고받은 대화를 보자. 카탄자로는 "데이터 전문가들을 보면, 처음엔 허술하지만 점점 정확하게 고쳐지는 보고서와 분석의 가치를 종종 놓치고 한다. 상당수 결정에는 매우 정확한 인사이트가 필요하지 않다. 약간은 허술한 데이터를 부끄러워할 필요가 없다"라고 말했다. 의사결정을 위해 정확한 데이터가 필요한 것이 아니라는 점을 상기시킨 그의 지적은 일리가 있다. 2016년 우버에 인수된 머신러닝 전문 기업 지오메트릭 인텔리전스(Geometric Intelligence)의 설립자 게리 마커스는 AI와 머신러닝, 딥러닝을 평가하는 핵심 요소는 패턴 인식 툴이 대략의 결과가 필요한 순간에 제대로 잘 작동하는지 여부라고 말했다. 비용이 적게 들고 완벽한 결과를 내는 것은 성공을 판단하는 핵심 요소가 아니라는 것이다. 이런 지적에도, 더 강력한 AI 애플리케이션을 만들기 위해 우리는 점점 더 많은 데이터를 확보하는 데 매진하고 있다. 충분한 데이터를 제공하면 머신러닝 모델이 '대략의 결과'보다 더 좋은 성과를 낼 것이라고 기대하는 것이다. 그러나 안타깝게도, 현실은 이렇게 단순하지 않다. 많은 애플리케이션에서 더 많은 데이터가 도움이 될 수는 있겠지만 실제로는 더 많은 데이터가 필요치 않다....

학습 인공지능 머신러닝 2022.09.13

“멀티태스킹하는 AI” 구글 차세대 AI 패스웨이즈의 가능성

구글이 자사의 차세대 AI 아키텍처인 패스웨이즈(Pathways)를 발표했다. AI가 풀어야 할 복잡한 과제를 고려하면, 새로운 접근법이 필요하다는 것이 구글 리서치 담당 수석 부사장 제프 딘의 설명이다. 실제로 AI에 대한 기대는 매우 크다. 특히 질병이나 전염병, 날로 증가하는 불평등, 기후변화와 같은 위협 등 인류가 직면한 거대한 과제를 해결하는 데 AI의 도움이 필요하기 때문이다.   패스웨이즈는 AI에 대한 새로운 사고 방식을 기반으로 한다. 딘은 블로그 포스트를 통해 기존 AI 시스템의 약점 중 다수를 보완하고 강점을 융합할 수 있다고 강조했다. 현재 AI 모델은 보통 단일 작업에 맞춰 학습한다. 새로운 문제를 해결하기 위해서는 처음부터 다시 훈련해야 한다. 그 결과, 수천 가지 개별 작업을 위한 수천 가지 모델이 생겨났다. 새로운 작업을 반복적으로 학습하는 것은 시간이 오래 걸릴 뿐만 아니라 더 많은 데이터도 필요하다. 딘은 이런 속성을 기존 AI 세상의 가장 큰 단점으로 꼽았다. 딘은 전통적인 IA 접근법과 인간이 학습하는 방식을 비교하며, “만약 새로운 기술을 배우기 전에 기존에 배운 모든 것을 깨끗이 잊어버린다고 상상해 보자. 줄넘기를 예로 들어보자. 균형을 잡고 뛰고 팔의 움직임과 맞추는 방법을 매번 새로 배워야 하는 것이다”라고 설명했다.   멀티태스킹 AI를 지향하는 패스웨이즈 패스웨이즈 아키텍처로 구글이 개발하는 AI 모델은 기존 기술을 새로운 기술과 결합해 다양한 작업을 동시에 수행할 수 있다. 예를 들어, 항공사진으로 지형의 고도를 모델링하는 시스템은 해당 지역에서 홍수가 어떻게 확산될지 예측하는 법도 배울 수 있다. 즉, 패스웨이즈의 모델은 앞으로 등장할 복잡한 과제를 해결하는 데 필요한 다양한 역량을 갖추게 되며, 필요에 따라 이런 역량을 가져와 결합해 사용할 수 있다. 인간이 여러 가지 감각으로 세상을 인식하는 것처럼, 패스웨이즈 역시 여러 가지 감각을 가져야 한다. 현재의 AI 시스템은 한 번에 한...

구글 패스웨이즈 pathways 2021.11.04

AI 모델의 3가지 편향성과 대처 방법 

자동 의사 결정 툴이 갈수록 확산되고 있다. 그러나 얼굴 인식 시스템부터 온라인 광고에 이르기까지, 이러한 툴의 뒤에 존재하는 머신러닝 모델의 상당수는 인종과 성별에 대한 뚜렷한 편향성을 보인다. ML 모델이 갈수록 폭넓게 채택되고 있는 만큼 인공지능(AI)의 공정성을 높이기 위한 각별한 관심과 전문적인 역량이 필요하다.    ML 모델은 차별을 악화시켜서는 안 되며 편향성을 찾아 제거해야 한다. 그러나 공정한 AI 모델을 구축하기 위해서는 먼저 AI 편향성의 근본 원인을 더 효과적으로 식별할 수 있는 방법을 확보해야 한다. 편향된 AI 모델이 입력과 출력 간의 편향된 관계를 어떻게 학습하는지를 이해해야 한다.  연구자들이 파악한 AI 편향성의 3가지 범주는 알고리즘 편견, 부정적 유산, 과소평가다. 알고리즘 편견은 보호되는 특징과 의사 결정에 사용되는 다른 정보 사이에 통계적 종속성이 존재하는 경우 발생한다. 부정적 유산은 AI 모델을 학습시키는 데 사용되는 데이터에 이미 존재하는 편향성을 나타낸다. 과소평가는 인구의 특정 구간에 대한 데이터가 충분하지 않아 모델이 확실한 결론을 내리지 못하는 경우다.  각 범주를 더 세부적으로 살펴보자.  알고리즘 편견  알고리즘 편견은 보호되는 특징과 다른 인자 간의 상관관계에서 비롯된다. 이 경우 보호되는 특성을 단순히 분석에서 배제하는 방법으로는 편향성을 줄일 수 없다. 이 상관관계가 보호되지 않는 인자를 근거로 해서 편향된 의사 결정으로 이어질 수 있기 때문이다.  예를 들어 초창기 예측 치안 알고리즘은 예측을 수행할 때는 인종 데이터에 접근할 수 없었지만, 모델은 지리적 데이터(예를 들어 우편번호)에 크게 의존했고 지리적 데이터는 인종과 연관된다. 결국 성별, 인종과 같은 인구통계학적 데이터를 “볼 수 없는” 모델이라 해도 보호되는 특성과 통계적으로 연관된 다른 특징을 통해 여전히 이 정보를 코드화할 수 있다.  대출 기관이 공정 ...

AI 학습 편향성 2021.02.26

IDG 블로그 | “새 망치의 딜레마” 잘못하고 있는 클라우드 기반 AI/ML

AI/ML은 어려운 기술이고, 그래서 무엇을 하고 있는지도 모른 채 AI/ML 시스템을 구축하는 기업이 적지 않다. AI/ML 대실패를 피하는 방법을 소개한다. 최근 발표된 랙스페이스 테크놀로지(Rackspace Technology)의 설문조사 결과에 따르면, 대다수 조직이 중요한 AI/ML 구상을 지원할 내부 자원이 부족한 상황이다. 실제로 설문 응답자의 34%는 AI 프로젝트가 실패했다고 답했다.   더 큰 문제는 AI/ML 기술에서 금기시하는 애플리케이션에 잘못 적용하는 것이다. 신경망과 AI의 등장 이후 계속되어 온 문제로, 생각보다 훨씬 오래된 일이다. 퍼블릭 클라우드 상의 AI는 이용하지 않을 수 없을 만큼 쉽고 저렴하다. 이 때문에 학습과 패턴 찾기 과정이 필요없는 비즈니스 애플리케이션에도 사용되고 있다. AI가 새로 산 반짝이는 망치이다 보니, 모든 애플리케이션이 못처럼 보이는 것이다. AI/ML을 적용하기 좋은 후보는 의미를 결정하고 패턴에 할당해야 하는 애플리케이션이다. 공장에서 이미지 인식과 자동화를 사용해 생산품의 품질을 판별하는 시스템을 생각해 보라. 아니면 은행에서 거래 데이터를 살펴보고 사기를 탐지해 내는 프로그램도 예가 될 수 있다. 두 번째 문제는 AI/ML 활용을 지원할 학습 데이터의 부족이다. 데이터는 AI 엔진을 가르쳐 의미를 패턴으로 할당하며, AI 엔진은 학습 데이터를 이용할 수 있을 때만 좋은 결과를 낳는다. 학습 데이터가 어디에 있는지, 신뢰할 수 있는 단 하나의 데이터 소스가 무엇인지, 데이터가 의미하는 것이 무엇인지를 알지 못하는 기업이 드물지 않다. 데이터는 AI 세상에서 모든 것이라고 해도 과언이 아니다. 지식은 데이터에서 나온다. 만약 확고한 데이터 소스가 없다면, 그리고 데이터의 의미에 대한 탁월한 이해가 없다면, AI는 기업이 원하는 대로 동작하지 않는다. 마지막으로 조사 결과에서 나온 것처럼, 많은 기업이 올바른 툴을 고르고 올바른 애플리케이션을 구축하고 AI/ML 시스템을 효과적...

AI 학습 2021.02.08

AI 성능, 전문성 부족, 책임 문제 해결 방안 : IDC

AI 모델의 개발, 훈련 시간을 단축시켜 위험, 손실을 줄이고 보안, 성능 문제를 미연에 방지하고 싶으십니까?  프로세스 자동화 및 MPC(massively parallel computing)인프라 채택으로 초기 단계부터 투명성, 훈련 시간등을 고려하여 AI 모델을 디자인하고, 보안 위험 또는 레이턴시 문제없이 비즈니스 크리티컬 애플리케이션에 AI를 접목하는 솔루션을 활용하세요. <9p> 주요 내용 - 디지털 트랜스포메이션과 인공지능 도입 - AI 자동화를 통한 전문성 문제 극복 - MPC를 통한 인프라 문제 극복 - 책임 문제 해결 방법

학습 인공지능 AI 2020.03.05

인텔, 너바나 AI 칩 개발 중단…하바나 제품군에 집중

인텔은 자사의 너바나(Nervana) 신경망 프로세서 개발을 중단하고 최근 20억 달러에 인수한 하바나 랩의 AI 제품군에 집중한다. 너바나로서는 너무 짧은 기간이었다.   인텔은 2016년 4억 달러를 주고 너바나를 인수하고 1년 후 첫 번째 신경망 프로세서를 출시했다. 너바나의 공동 설립자인 나빈 라오는 인텔에서 데이터 플랫폼 그룹의 일부인 AI 플랫폼 그룹을 맡았다. 인텔은 너바나 칩을 AI 시장에서 엔비디아 GPU의 경쟁자로 내세웠으며, 개발과 관련해 페이스북과 밀접한 협업을 진행하기도 했다. 이제 인텔은 너바나 NNP-T 칩 개발을 중단했다. 기존 고객에게는 약속대로 추론 칩인 NNP-I를 제공할 계획이다. 인텔은 이 영역에 하바나 랩의 가우디 프로세서와 고야 프로세서를 배치할 계획이다. 신경망은 학습과 추론 두 부분으로 구성된다. 학습은 컴퓨터가 이미지 인식처럼 프로세스를 배우는 과정이다. 추론은 학습된 시스템을 실제 작업에 투입하는 것이다. 학습이 추론보다 더 연산 집약적이며, 엔비디아가 뛰어난 영역이기도 하다. 인텔은 고개의 의견을 반영해 이런 결정을 내렸으며, 이번 결정이 자사의 데이터센터 AI 가속화 로드맵에 대한 전략 업데이트의 일환이라고 밝혔다. 인텔은 발표문을 통해 “하바나 제품군은 학습과 추론 모두에 통일성 있고 프로그래밍 가능한 아키텍처라는 강력하고 전략적인 이점을 제공한다. 데이터센터 AI 가속화를 단일 하드웨어 아키텍처와 소프트웨어 스택으로 교체하면서 인텔 개발팀은 힘을 합쳐서 더 많은 혁신을 더 빨리 고객에게 전달하는 데 집중할 수 있게 됐다”고 강조했다. 사실 이런 결과는 어느 정도 예상된 것이다. 티리아스 리서치의 사장 짐 맥그리거는 “한쪽은 학습용으로, 한쪽은 추론용으로 유지할지도 모른다고 생각했다. 하지만 하바나가 훨씬 더 잘 동작했고 아키텍처의 확장성도 더 좋았다. 그리고 인텔은 여전히 두 업체로부터 지적재산권과 전문 지식을 얻고 있다”고 평가했다. 희소식은 개발자가 너바나용으로 만든 것을 버릴 필...

라라비 인텔 학습 2020.02.07

IDG 블로그 | SaaS 기반 AI 학습 서비스의 엄청난 가능성

머신러닝 기반 시스템을 다루고 있다면, 학습 데이터에 대해 잘 알 것이다. 학습 데이터는 학습을 위해 AI 모델에 적용하기 전에 올바르게 형식화해야 하고, 또 정확해야 한다.   퍼블릭 클라우드의 인기 머신러닝 시스템을 사용해 사기 거래 탐지 엔진을 만든다고 생각해 보자. 우선 데이터 세트를 만들어 모델을 학습한다. 이 경우, 수백만 건의 거래 기록에 사기 거래라는 라벨을 붙여야 한다. 이 데이터는 머신러닝 모델이 어떤 것이 사기일 가능성이 있고 어떤 것은 아닌지 배우도록 한다. 물론, 다른 종류의 학습 데이터도 있는데, 일부는 라벨이 붙어있고 일부는 아니다. 일단 학습을 하면, 머신러닝 모델은 경험 학습을 통해 사기인지 아닌지를 배우는 훈련을 계속 받을지도 모른다. 시간이 있다면 이 모델은 사람이나 다른 시스템이 사기라고 표시한 거래를 모니터링함으로써 스스로 계속 학습할 수 있다. AI 학습에 대한 이 접근법에서 중요한 것은 건강한 학습 데이터 세트가 필요하다는 것이다. 경우에 따라서는 학습 데이터 중개상으로부터 얻는 경우도 있지만, 대부분 기업은 자체 데이터를 형식화해 머신러닝 모델을 학습할 데이터를 마련한다. 그런데, 만약 다른 기업이 학습시킨 모델로 언제 어디서나 머신러닝 모델을 학습할 수 있다면 어떨까? 필자가 생각해 낸 아이디어가 아니다. AI의 대장정이 시작된 이래, 한 AI 엔진이 다른 AI를 학습시키는 상상을 해왔다. 학습 데이터를 공유할 수도 있고, 더 나아가 지식과 경험을 직접적이고 자동적인 인터랙션을 통해 공유할 수도 있다. 머신러닝 모델을 지도할 수 있는 멘토 역할의 AI 엔진이 있다면, 외부 경험을 제공해 AI 모델을 한층 더 가치 있고 효과적으로 만들 것이다. 물론 말처럼 쉽지는 않다. 머신러닝 엔진은 보통 서로 이야기를 나누지 않으며, 같은 소프트웨어라도 마찬가지다. AI 엔진은 처음부터 독립적으로 학습하고 AI가 아닌 시스템이나 사람과 인터랙션하도록 만들어진다. 하지만 이제는 이런 AI 엔진 간의 학습이 대부분...

학습 인공지능 Saas 2019.11.25

올바르게 구현된 AI : 데이터-훈련-추론 AI 모델의 이해

데이터 사이언스 전문가가 아니더라도 엔터프라이즈 AI의 가장 복잡한 요소까지 이해하고 해석하여 실행에 옮길 수 있다면 어떨까요? 지금까지 엔터프라이즈 AI는 모델 개발 및 훈련에 정통한 분석 전문가들의 전유물로 여겨지곤 했습니다. 하지만 AI 중심의 이니셔티브가 비즈니스의 전 범위로 확장되면서 상황은 완전히 달라지고 있습니다. 이러한 변화의 선두에는 가치 기반의 AI 활동 프레임워크가 있습니다. 이것을 데이터-훈련-추론(Data-Train-Inference, DTI) AI 모델이라고 하는데, 본 문서에서는 이 AI 모델에 대해 설명하고자 합니다.  주요 내용 - 데이터에 관한 네 가지 진실 - 속도 및 정확성에 대한 요구와 해묵은 갈등 - 추론의 실례 - 모델의 완성

학습 인공지능 AI 2019.11.13

HPE-NVIDIA : AI 번들 오퍼링 북

인공지능 기술은 인간의 지각, 추론, 학습능력 등을 컴퓨팅 파워을 이용하여 구현하는 기술로, 자율주형, 지능형 금융서비스, 의료진단, 법률서비스 지원, 게임, 기사작성, 지능형 감시 시스템 등 다양한 산업분야에서 널리 활용되고 있습니다. HPE는 다양한 영역에서 AI 관련 연구를 지속적으로 수행해 왔습니다. 본 자료는 HPE가 제안하는 HPE Edge-to-Core AI 통합모델 구성을 살펴보고, HPE와 NVIDIA가 AI Training 및 Inference 전용으로 구성한 솔루션의 특징을 상세하게 소개합니다. <24p> 주요 내용 - 인공지능의 미래 및 HPE HPC/AI 연구여정 - HPE Edge-to-Core AI 통합 모델 구성도 - HPE-NVIDIA AI 오퍼링 - AI Training 용도 - HPE-NVIDIA AI 오퍼링 - AI Inference 용도 - HPE AI 최적화 제품 포트폴리오

학습 인공지능 에지 2019.09.30

구글 스트리트 뷰와 머신러닝 학습 합쳐 도로 표지판 관리에 활용한 연구 프로젝트

도로 표지판은 어디에나 있지만, 정확히 어느 곳에 배치되는지는 관리 책임자인 지방 정부 당국이 담당한다. 호주에서는 의회와 정부가 지역 내 도로 표지판의 데이터를 관리한다. 여기에는 위치 데이터 기록이 의무로 포함된다. 그러나 도로가 재개발되고 확장되면서 데이터가 점차 불완전해지고, 인력이 수동으로 현장 조사를 할 때의 오류도 부정확성에 기여한다. 데이터 세트를 업데이트하기 위해 인력을 도로에 파견하는 것도 비용이 들고, 안전 문제도 발생할 수 있다. 그래서 호주 의회도 이런 의결을 피하는 경향이 있다. RMIT의 지형 과학 학교의 앤드루 캠벨과 동료들은 그래서 “도로 교통과 운송 데이터베이스가 거리 표지판 정보에 나타나지 않는 경우가 보통”이라는 문제를 제기했다. 지역 의회는 저렴하고 쉬우면서도, 인력을 파견하지 않아도 되는 도로 표지판 업데이트 방법을 찾고 있다. 캠벨과 RMIT의 동료들은 구글 스트리트 뷰 API와 머신 러닝 모델을 활용하는 방안을 제시했다. 캠벨은 “위원회가 인프라를 모니터링할 의무가 있지만, 현재로서는 저렴하고 효율적인 방법이 없었다. 구글의 종합적이고 고해상도인 스트리트 뷰 이미지 데이터베이스와 머신 러닝의 사전 물체 탐지 모델이 대체 방법을 제공할 수 있다. 무료 오픈소스 도구를 활용해 완전히 자동화된 표지판 탐지 방법을 개발했고, 이 방법은 정확성도 뛰어나다”고 설명했다.   시대의 신호 도구 개발에 앞서 캠벨과 동료 과학자 알랭 보스, 채인 선은 우선 도로 표지판 이미지의 훈련용 데이터셋을 모았다. 상대적으로 완성된, 그레이터 질롱 시가 제공한 도로 표지판 데이터셋을 가져왔고 여기서 멈춤 표지판과 양보 표지판만을 필터로 걸러냈다. 표지판 위치는 구글 스트리트 뷰에서 찾았고, 여기서 가장 큰 정면 뷰 각각을 추출했다. 최종 훈련 데이터셋에는 500개의 양보 표지판, 500개의 멈춤 표지판이었는데, 렉트레이블(RectLabel)이라는 소프트웨어를 통해 이미지에 설명을 달았다. 멈춤과 양보 표지판을 탐지하는 딥러닝 ...

사진 데이터 이미지 2019.06.21

IDG 블로그 | 애플 워치와 기업 교육 변혁

기술의 발전 덕분에 학습이 프로세스 기반의 경험에서 경험 주도 프로세스로 변하고 있다. 전통적으로 학습은 공장과 같은 교실, 줄 맞춰진 책상, 종이와 연필, 선생님, 사실들이 나열된 칠판으로 대변됐다. 당시 학습에서 중요한 것은 규율을 주입하고, 기본적인 산술 능력, 이론, 그리고 선택된 사실들을 배우는 것이었다. 그러나 기술이 발전하면서 오늘날의 학습은 암기보다는 맥락 이해가 더욱 중요해졌다. 요즘 어린이들은 아이패드 및 다른 기술 들을 사용해서 자신에게 맞는 속도로 학습한다. 벽에 있던 칠판은 이제 휴대폰 속에 있다. 교육 경제 역시 변화하고 있다. 우리는 여전히 산술 능력과 이론이 필요하지만, 사실을 암기하는 것은 우리가 본 정보들을 응용하고 분석하고 결론을 내리는 것이 사실 암기보다 훨씬 중요해졌다. 직장, 그리고 학교 디지털 네이티브 세대의 어린이들이 자라 고용 시장에 뛰어들었고, 이들은 학교에서의 학습 방법을 직장에서도 사용하게 되리라 기대한다.  디지털 기업들은 이런 툴들을 직원 교육 프로그램에 반영하기 위한 여러 방법을 찾고 있다. 또한, AI가 점점 더 많은 사람의 일을 대신하게 되면서 대비하지 않으면 기계에게 대체 당할 직원들의 평생 교육에도 기술을 활용할 수밖에 없을 것이다. 이런 변화를 증명할 수 있는 예시만 수십 가지다. MOOC, 회사 내부의 위키, 영상 강의, 심지어 증강현실(Augemented Reality, AR) 등은 이미 여러 기업에서 사용하고 있다. 애플 워치를 포함한 웨어러블 역시 이런 학습 도구가 되고 있다. 애플 워치는 학습에 어떻게 도움이 되나 캠브리지 대학 IfM(Institute for Manufacturing)은 새로운 기술을 학습하는 도구로 웨어러블을 어떻게 사용하는지 테스트했다. 한 테스트에서 햅틱 피드백이 지원되는 장갑과 조금 더 전통적인 VR 고글을 사용한 것과 종이를 사용한 학습을 비교했는데, VR이 종이보다 훨씬 효율적인 것으로 나타났다. 다른 실험에서는 스마트 글래스와 스...

학습 웨어러블 애플 2018.12.19

머신러닝 실패 사례에서 배우는 다섯 가지 교훈

머신러닝(Machine Learning))은 비즈니스와 기술 부문의 많은 경영진과 임원들이 실현 및 활용 방법을 파악하려 애를 쓰고 있는 이른바 가장 ‘핫’한 범주에 속하는 기술이다. 제대로 구현해 활용할 경우, 머신러닝은 영업과 마케팅 캠페인의 효과를 높이고, 수익 모델을 향상하고, 부정 행위 및 사기를 쉽게 탐지할 수 있도록 도와주고, 장비와 장치에 대해 예측 유지보수를 수행하는 등 다양한 이점을 얻을 수 있다. 그러나 잘못될 경우, 서둘러 도입한 것을 후회하게 될 수도 있다. 다음은 머신러닝을 잘못되도록 만드는 다섯 가지 실수이다. 이는 실제 머신러닝을 도입한 기업의 사례에 바탕을 두고 있다. 이들 기업은 이 글을 읽는 독자들이 같은 실수를 하지 않도록 자신들이 터득한 교훈을 공유했다.   교훈 1. 가정이 잘못되면 궤도를 이탈한다 컨설팅 회사의 기업 활동에 도움을 주는 전문 서비스 자동화 소프트웨어를 설계 및 제작하는 미국 회사인 프로젝트 PSA(Project PSA)는 인적 자원 운영 계획 수립에 있어 변동성을 예측하는 데 머신러닝을 활용하려 시도하면서 힘들게 이런 교훈을 터득했다. 컨설팅 회사는 잘 훈련된 전문 컨설턴트와 이들의 재능을 효율적으로 활용하는 것이 아주 중요하다. 이에 프로젝트 관리자를 채용, 프로젝트에 필요한 인적 자원 요구사항을 공유 평가 및 예측하는 경우가 많다. 이후 컨설턴트가 각 프로젝트에 투입한 시간을 추적해 고객에게 이에 대한 보수를 청구한다. 그런데 전문 서비스 자동화 도구 같은 단일 시스템을 사용해 두 활동을 관리할 때의 이점이 있다. 예를 들어, 예측한 시간과 실제 시간을 비교, 각 프로젝트 매니저가 얼마나 정확히 인적자원 계획을 수립했는지 알 수 있다. 프로젝트 PSA의 COO 스티브 총은 수백 명의 프로젝트 매니저를 채용한 고객사 한 곳과 조사를 시작했다. 계획 기간이 계속 증가했을 때의 실제 일한 평균 시간과 예측한 시간의 차이(편차)를 비교하는 모델을 만들었다. 그리고...

학습 인공지능 사례 2018.11.16

"데이터를 넣으면 인텔리전스가 나온다" 머신러닝 파이프라인 풀어보기

머신러닝(Machine Learning)을 보면 마술 상자가 생각난다. 데이터를 집어넣으면 예측이 나온다. 하지만 머신러닝에 마술은 없다. 데이터와 알고리즘, 그리고 알고리즘을 통해 데이터를 처리함으로써 만들어지는 모델이 있을 뿐이다. 머신러닝을 통해 데이터에서 실체적 인사이트를 도출하는 일을 하는 사람에게는 이 프로세스가 블랙박스처럼 느껴져서는 안 된다. 상자 내부에 대해 잘 이해할수록 데이터가 예측으로 변환되는 과정의 각 단계를 더 정확히 이해할 수 있고 예측이 갖는 힘은 더 강력해진다. 데브옵스 분야에는 소스 코드에서 배포에 이르기까지 소프트웨어의 진행 과정을 설명하는 “빌드 파이프라인”이란 것이 있다. 개발자에게 코드 파이프라인이 있다면, 데이터 과학자에게는 머신러닝 솔루션을 통해 흐르는 데이터 파이프라인이 있다. 이 파이프라인을 마스터하는 것은 머신러닝 자체를 세부적으로 파악하기 위한 효과적인 방법이다. 머신러닝을 위한 데이터 소스와 흡수 위키본 리서치(Wikibon Research)의 분석가 조지 길버트가 설명했듯이 머신러닝 파이프라인은 4개의 단계로 구성된다. 1. 데이터 흡수 2. 데이터 준비(데이터 탐색 및 거버넌스 포함) 3. 모델 학습 4. 예측 제공 머신러닝 파이프라인을 시작하기 위해서는 학습할 데이터와 학습을 수행할 알고리즘, 두 가지가 필요하다. 대부분의 경우 데이터는 다음과 같은 둘 중 하나의 형태로 제공된다. 1. 어딘가에서 이미 수집 및 집계 중인 라이브 데이터. 이 데이터를 사용해서 정기적으로 업데이트되는 예측을 수행할 계획이다. 2. 다운로드해서 그 상태 그대로 사용하거나, 기존 데이터 소스에서 ETL 작업을 통해 얻는 “동결된” 데이터 집합. 동결된 데이터의 경우 일반적으로 한 가지 종류의 처리만 한다. 이 데이터로 모델 학습을 수행하고 모델을 배포하며 필요에 따라 주기적으로 모델을 업데이트한다. 그러나 라이브 또는 &ldq...

인텔리전스 학습 예측 2018.08.14

IDG 블로그 | 흔히 저지르는 머신러닝 실수 3가지

필자는 대체로 클라우드 기반 머신러닝과 딥러닝, 그리고 AI를 적극 지지한다. 결국 사용자의 호출에 응답하고 이를 수행하는 인공지능과의 대화를 상상하지 못하면, 진정한 IT광이 될 수 없다. 그런데 필자는 클라우드 기반 머신러닝과 딥러닝을 잘못 적용하는 사례를 끊임없이 보고 있다. 분명 클라우드 기반 머신러닝은 언제든지 사용할 수 있는 기술이 되었다. 하지만 지혜롭게, 그리고 적절하게 사용해야 한다. 흔히 저지르는 머신러닝 관련 기술 세 가지를 소개한다. 지식 모델을 교육할 충분한 데이터를 제공하지 않는다 머신러닝은 학습없이는 아무런 가치가 없다. 머신러닝의 진정한 사용례는 막대한 양의 데이터에 알고리즘을 적용해 특정 패턴이 드러나면, 이런 패턴이 머신러닝 기반 애플리케이션을 훈련시키는 것이다. 따라서 데이터가 없으면 학습도 없다. 머신러닝 애플리케이션이 데이터를 수집해 점점 똑똑해질 수도 있지만, 처음에 어떻게 생각해야 하는지 시스템을 가르치기 위한 충분한 데이터가 있는 출발점이 필요하다. 예를 들어, 병원에서 사용하는 머신러닝 시스템이 있어서 환자가 병원에 머물러 있는 동안 사망할 확률을 이야기해준다고 생각해 보자. 최소한 10만 건 이상의 데이터가 없다면, 시스템이 말하는 확률은 0% 아니면 100%가 되어 아무런 도움이 되지 않을 것이다. 필요 없는 곳에 머신러닝을 사용한다 필자가 더 자주 보는 실패 사례로, 기업은 아무런 이유없이 애플리케이션 개발 비용을 서너 배 더 사용한다. 머신러닝 시스템을 사용해도 아무런 실익이 없는 사용례는 많다. 대부분 절차적 로직만으로도 충분히 잘 돌아가기 때문에, 예를 들어 회계 시스템이나 일정관리 시스템용으로 지식 기반을 구축하는 것은 과잉일 뿐이다. 게다가 이 때문에 애플리케이션은 훨씬 더 비효율적으로 돌아간다. 성능에 미치는 영향을 생각하지 않는다 애플리케이션에 머신러닝 시스템을 내장하는 것은 때로 애플리케이션을 훨씬 더 가치 있는 것으로 만들어 준다. 하지만 이 때문에 ...

애플리케이션 학습 AI 2018.07.02

“데이터 입력, 지능 출력” 알기 쉽게 설명하는 머신러닝 파이프라인

머신러닝을 보면 마법의 블랙 박스 같다는 생각이 들곤 한다. 상자에 데이터를 집어넣으면 반대쪽에서 예측이 튀어나온다. 그러나 그 과정에 마법은 없다. 데이터와 알고리즘, 그리고 알고리즘을 통해 데이터를 처리해 만들어진 모델이 있을 뿐이다. 머신러닝을 통해 데이터에서 행동 가능한 통찰력을 끌어내는 일을 하는 사람에게는 이 프로세스를 구체적으로 아는 것이 도움이 된다. 그 상자 내부가 어떻게 돌아가는지 잘 알수록 데이터가 예측으로 변환되는 과정의 각 단계에 대한 이해도를 높이고 예측의 정확도를 향상시킬 수 있다. 데브옵스 사람들은 소스 코드에서 배포에 이르기까지 소프트웨어의 제작 과정을 “파이프라인 빌드”라고 표현한다. 데이터에도 여러 머신러닝 솔루션을 거치는 흐름, 즉 파이프라인이 있다. 이 파이프라인의 구성 원리를 마스터하면 머신러닝을 속속들이 이해할 수 있다. 머신러닝을 위한 데이터 소스와 흡수 위키본 리서치(Wikibon Research) 분석가 조지 길버트의 설명에 따르면 머신러닝 파이프라인은 4단계로 구성된다. 1. 데이터 흡수(ingest) 2. 데이터 준비(데이터 탐색 및 거버넌스 포함) 3. 모델 교육 4. 예측 제공 머신러닝 파이프라인이 시작되려면 교육에 사용할 데이터, 그리고 교육을 수행할 알고리즘, 두 가지가 필요하다. 대부분의 경우 데이터는 다음 두 가지 형태 중 하나로 유입된다. 1. 정기적으로 업데이트되는 예측을 수행하기 위해 이미 어딘가에 수집해서 집계하고 있는 라이브 데이터. 2. 다운로드해서 그대로 사용하거나 ETL 작업을 통해 기존 데이터 소스에서 얻은 “동결된” 데이터 집합. 동결된 데이터의 경우 일반적으로 한 가지 종류의 처리만 수행한다. 즉, 데이터로 모델을 교육하고 그 모델을 배포하고 필요한 경우 정기적으로 모델을 업데이트한다. 그러나 스트리밍되는 데이터의 경우 데이터에서 모델과 결과를 생산하는 방법은 두 가지다. ...

프로세스 과정 학습 2017.06.13

인터뷰 | 데이빗 마이어에게 듣는 머신러닝과 네트워크와 보안

네트워킹 분야에서 머신러닝은 자동화 못지 않은 인기 주제이다. 네트워킹 분야의 많은 머신러닝 애플리케이션이 아직은 여러 해 뒤의 이야기이지만, 가능성 면에서는 10여 년에 한 번씩 등장해 네트워크의 동작 방식을 근본적으로 바꿔 놓는 몇 안되는 기술 중의 하나가 될 가능성이 있다. 결국 아마존이나 애플, 페이스북, 구글, 바이두 등의 선도 업체는 이미 머신러닝을 이용해 자사 제품과 비즈니스 프로세스를 바꾸고 있다. 희망적인 것은, 기술이 성숙하면 이들 내부적인 연구 작업의 많은 수가 공급업체의 시스템과 클라우드 내부 깊숙이 배어든다는 것이다. 물론 곧 초기 머신러닝 애플리케이션이나 실험을 지원할 방법을 찾아나서는 기업도 있을 것이다. 이런 점에서 필자는 지금이 업계 최고의 머신러닝 전문가 중 한 사람인 데이빗 마이어와 질의 응답을 하기에 적절한 시기라고 생각했다. 마이어는 지난 4년 동안 머신러닝을 네트워킹과 보안 분야의 복잡한 문제를 해결하는 데 어떻게 이용할지를 연구했다. Q. 머신러닝이란 무엇인가? 전통적인 프로그래밍에서는 프로그래머가 결과물을 생성하기 위한 규칙을 세운다. 머신러닝에서는 프로그래머가 데이터와 지도 학습(Supervised Learning) 같은 기준 결과물을 제공하고, 소프트웨어의 역할은 규칙을 배우는 것이다. 머신러닝 소프트웨어는 특정 입력에 대한 기준 결과물을 생성하는 프로세스를 발견하기 위한 탐사 과정을 통해 학습한다. 훈련용 입력 데이터와 결과물은 해당 모델의 예측 정확성을 결정한다. 이 훈련 단계를 거치면 학습을 한 소프트웨어는 추론할 준비를 마친 것이다. 새로운 입력 데이터가 주어지면, 학습된 모델은 이제 예상 결과물을 추론한다. 온라인 시스템처럼 소프트웨어가 계속 학습을 진행하는 경우도 있다. Q. 오늘날 머신러닝을 활용하는 예를 들어 달라. 우리가 일상적으로 사용하는 머신러닝 소프트웨어로는 검색엔진이 있다. 검색엔진은 내부 알고리즘을 기반으로 지속적인 온라인 학습을 통해 검색 결과를 개선...

알고리즘 프로그래밍 지능 2017.05.31

머신러닝 프로젝트의 대실패를 피하는 6가지 방법

머신러닝은 이제 SF영화에 나오는 이야기가 아니다. 머신러닝은 이미 우리의 일상 곳곳을 건드리는 수많은 기술이 번창하는 밑거름 역할을 해왔다. 시리나 알렉사와 같은 음성 인식부터 페이스북의 자동 사진 태깅, 아마존이나 스포티파이의 상품이나 음악 추천도 머신러닝의 작품이다. 그리고 많은 기업이 머신러닝 알고리즘을 이용해 자사 네트워크의 효율성을 높이고자 한다. 실제로 일부에서는 이미 위협 탐지와 WAN 최적화를 개선하는 데 사용하고 있다. 어떤 기술에 이용하든지 머신러닝은 잘못 구현하면 대혼란을 초래할 수 있다. 따라서 머신러닝을 수용하기 전에 기업은 머신러닝이 실패할 수 있는 함정을 반드시 알아두어야 한다. 그래야만 프로젝트 실패 때문에 임원들이 이 기술에 등을 돌리는 일을 막을 수 있다. 주니퍼 네트웍스의 보안 인텔리전스 소프트웨어 엔지니어인 로만 시나예브는 머신러닝 최악의 실책을 피하는 방법을 소개한다. All Image courtesy Thinkstock editor@itworld.co.kr

알고리즘 데이터 학습 2016.11.15

IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.