2020.01.02

IDG 블로그 | 머신러닝의 다음은 더 큰 다양성과 유연성

David Linthicum | InfoWorld
머신러닝은 이제 손쉬운 물건이 됐다. 퍼블릭 클라우드 컴퓨팅 덕분에 저렴해지면서 이제 모든 클라우드 기반 애플리케이션이 머신러닝을 효과적으로 적용하고 있다.
 
ⓒ GettyImagesBank

현재 사용되고 있는 머신러닝은 크게 세 가지 종류로 나눌 수 있다.

-    지도 학습(Supervised Learning)은 지식 기반을 직접 훈련해야 하고 데이터를 라벨링해야 한다. 이미지 인식을 위해 사람이나 동물, 식물을 알려주는 것과 같다. 지도형 학습은 트랜잭션에 머신러닝을 사용할 때 많이 적용하는 경향이 있다. 가짜 수표 검사나 안면 인식, 데이터의 패턴 인식 등이 대표적인 예다. 필자는 이런 종류의 머신러닝 대부분을 사용한다.

-    비지도 학습은 훈련에 라벨링된 데이터가 필요 없다. 비지도 학습 머신러닝은 데이터를 사람이 하는 것과 같은 방식으로 나누거나 묶고 정리할 수 있다. 필자는 이런 머신러닝을 판매 증대 방안을 찾는 웹 사이트의 추천 엔진 구축에 사용했는데, 고객의 관심을 끌 만한 제품을 추천한다.

-    강화 학습은 정말로 사람처럼 실수로부터 배운다. 사용자는 지식 엔진에 일정한 종류의 신호를 제공해야 한다. 좋은 행동에는 긍정적인 신호, 나쁜 행동에는 부정적인 신호를 주는 것이다. 이 개념은 좋은 행동에 대한 선호도를 강화한다. 비디오 게임이나 시뮬레이션에 많이 사용한다.

물론 많은 박사 논문과 학술 연구는 다른 종류의 인공지능과 머신러닝도 다룬다. 필자가 여기서 소개한 목록은 대부분 클라우드 기반 머신러닝 툴이 지원하는 종류일 뿐이다.

필자에게 문제는 앞서 언급한 세 가지 머신러닝에 한계가 있을지도 모른다는 것이다. 생각해보자. 모든 종류의 머신러닝을 동적으로 조합하고 데이터 학습이나 대규모 부하나 트랜잭션을 처리하는 동안 접근법이나 종류, 알고리즘을 조정할 수 있다면?

이 세 가지 범주의 머신러닝이 맞지 않는 사용례가 문제이다. 예를 들어, 라벨링된 데이터와 그렇지 않은 데이터가 있고, 두 데이터 자체와 데이터의 패턴을 파악할 머신러닝 엔진을 찾는다고 하자. 대부분 완벽한 학습 데이터는 없으며, 머신러닝 엔진이 스스로 이를 분류할 수 있다면 좋을 것이다.

몇 가지 예외는 있지만, 우리는 지도 학습이나 비지도 학습 중 골라야 하고, 문제의 일정 부분만을 해결할 수 있다. 그리고 머신러닝을 유용하게 만들 학습 데이터를 충분히 확보하지 못했을 가능성이 크다. 게다가 트랜잭션 애플리케이션에서 데이터가 사용되기 때문에 강화 학습을 제공할 역량도 없다. 

모든 것을 극복하는 접근법을 만드는 방법도 있지만, 학습 데이터와 알고리즘 모두 상당히 힘든 작업을 해야만 한다. 보통은 데이터의 종류를 결정하고 적합한 알고리즘(머신러닝의 종류)을 적용하는 것과 관계된 것으로, 이를 각각, 그리고 묶어서 처리해야 한다. 이 모든 맞춤화 작업은 머신러닝 애플리케이션과 데이터, 그리고 머신러닝 처리 수단을 유지해야만 한다는 것을 의미한다. 기업 IT 부서로서는 좀처럼 하고 싶지 않은 일이다.

필자가 말하고 싶은 것은 단순하다. 이제 AI 세상의 주역으로서 머신러닝의 다음은 무엇인지 생각해 볼 시간이 됐다는 것이다. 유연성을 염두에 두고 좀 더 동적인 방법을 찾아야 할 것이다.  editor@itworld.co.kr


2020.01.02

IDG 블로그 | 머신러닝의 다음은 더 큰 다양성과 유연성

David Linthicum | InfoWorld
머신러닝은 이제 손쉬운 물건이 됐다. 퍼블릭 클라우드 컴퓨팅 덕분에 저렴해지면서 이제 모든 클라우드 기반 애플리케이션이 머신러닝을 효과적으로 적용하고 있다.
 
ⓒ GettyImagesBank

현재 사용되고 있는 머신러닝은 크게 세 가지 종류로 나눌 수 있다.

-    지도 학습(Supervised Learning)은 지식 기반을 직접 훈련해야 하고 데이터를 라벨링해야 한다. 이미지 인식을 위해 사람이나 동물, 식물을 알려주는 것과 같다. 지도형 학습은 트랜잭션에 머신러닝을 사용할 때 많이 적용하는 경향이 있다. 가짜 수표 검사나 안면 인식, 데이터의 패턴 인식 등이 대표적인 예다. 필자는 이런 종류의 머신러닝 대부분을 사용한다.

-    비지도 학습은 훈련에 라벨링된 데이터가 필요 없다. 비지도 학습 머신러닝은 데이터를 사람이 하는 것과 같은 방식으로 나누거나 묶고 정리할 수 있다. 필자는 이런 머신러닝을 판매 증대 방안을 찾는 웹 사이트의 추천 엔진 구축에 사용했는데, 고객의 관심을 끌 만한 제품을 추천한다.

-    강화 학습은 정말로 사람처럼 실수로부터 배운다. 사용자는 지식 엔진에 일정한 종류의 신호를 제공해야 한다. 좋은 행동에는 긍정적인 신호, 나쁜 행동에는 부정적인 신호를 주는 것이다. 이 개념은 좋은 행동에 대한 선호도를 강화한다. 비디오 게임이나 시뮬레이션에 많이 사용한다.

물론 많은 박사 논문과 학술 연구는 다른 종류의 인공지능과 머신러닝도 다룬다. 필자가 여기서 소개한 목록은 대부분 클라우드 기반 머신러닝 툴이 지원하는 종류일 뿐이다.

필자에게 문제는 앞서 언급한 세 가지 머신러닝에 한계가 있을지도 모른다는 것이다. 생각해보자. 모든 종류의 머신러닝을 동적으로 조합하고 데이터 학습이나 대규모 부하나 트랜잭션을 처리하는 동안 접근법이나 종류, 알고리즘을 조정할 수 있다면?

이 세 가지 범주의 머신러닝이 맞지 않는 사용례가 문제이다. 예를 들어, 라벨링된 데이터와 그렇지 않은 데이터가 있고, 두 데이터 자체와 데이터의 패턴을 파악할 머신러닝 엔진을 찾는다고 하자. 대부분 완벽한 학습 데이터는 없으며, 머신러닝 엔진이 스스로 이를 분류할 수 있다면 좋을 것이다.

몇 가지 예외는 있지만, 우리는 지도 학습이나 비지도 학습 중 골라야 하고, 문제의 일정 부분만을 해결할 수 있다. 그리고 머신러닝을 유용하게 만들 학습 데이터를 충분히 확보하지 못했을 가능성이 크다. 게다가 트랜잭션 애플리케이션에서 데이터가 사용되기 때문에 강화 학습을 제공할 역량도 없다. 

모든 것을 극복하는 접근법을 만드는 방법도 있지만, 학습 데이터와 알고리즘 모두 상당히 힘든 작업을 해야만 한다. 보통은 데이터의 종류를 결정하고 적합한 알고리즘(머신러닝의 종류)을 적용하는 것과 관계된 것으로, 이를 각각, 그리고 묶어서 처리해야 한다. 이 모든 맞춤화 작업은 머신러닝 애플리케이션과 데이터, 그리고 머신러닝 처리 수단을 유지해야만 한다는 것을 의미한다. 기업 IT 부서로서는 좀처럼 하고 싶지 않은 일이다.

필자가 말하고 싶은 것은 단순하다. 이제 AI 세상의 주역으로서 머신러닝의 다음은 무엇인지 생각해 볼 시간이 됐다는 것이다. 유연성을 염두에 두고 좀 더 동적인 방법을 찾아야 할 것이다.  editor@itworld.co.kr


X