대부분 사람은 AI의 결과물에 관심을 갖는다. 하지만 AI의 속을 들여다 보고 싶은 우리 같은 사람들이라면, 반드시 알아야 할 4가지 기반 요소가 있다. 바로 범주화(categorization), 분류(Classification), 머신러닝(Machine Learning), 협업 필터링(Collaborative Filtering)가 그것으로, 이 4개의 기둥은 분석 과정의 각 단계를 나타내기도 한다.
범주화는 문제 영역, 즉 재무나 네트워킹 등의 영역에 특화된 기준을 생성하는 작업이고, 분류는 어떤 데이터가 문제를 해결하는 데 가장 연관성이 있는지를 결정한다. 머신러닝은 이상행위 탐지나 클러스터링, 딥러닝, 선형 회귀 등과 관련된 것이며, 협업 필터링은 대규모 데이터 세트에 걸쳐 패턴을 찾는 작업과 관련되어 있다.
범주화
AI는 해결하고자 하는 문제와 연관된 다량의 데이터를 필요로 한다. AI 솔루션을 구축하는 첫 단계는 필자가 “설계 의도 기준(Design Intent Metrics)’라고 부르는 것을 만드는 작업으로, 이 기준은 문제를 범주화하는 데 사용한다. 만들고자 하는 것이 퀴즈 게임에 나갈 시스템인지, 의사의 암 진단을 보조할 시스템인지, 아니면 IT 관리자가 무선 문제를 진단하는 데 도움이 되는 시스템인지, 사용자는 문제를 더 작은 조간으로 쪼갤 수 있도록 기준을 정의해야 한다. 예를 들어 무선 네트워킹 문제라면, 핵심 기준은 사용자의 연결 시간, 입출력량, 서비스 범위, 로밍 등이 될 것이다. 암 진단이라면, 백색 세포수, 인종적 배경, X선 검사 결과 등이 기준이 될 것이다.
분류
일단 문제를 서로 다른 영역으로 범주화했다면, 다음 단계는 각 범주를 위한 분류자(classifier)를 확보하는 것이다. 분류자는 사용자에게 의미 있는 결론의 방향을 알려준다. 예를 들어, 퀴즈쇼용 AI 시스템을 훈련한다면, 사용자는 우선 질문을 문자 그대로의 뜻 또는 언어 유희로 분류하고, 그 다음에 시간, 사람, 사물, 장소 등으로 분류한다. 무선 네트워크라면, 일단 사용자가 문제의 범주(예를 들어 접속 전의 문제인지 접속 후의 문제인지 등)를 알면, 문제를 유발한 것이 무엇인지 분류해야 할 필요가 있다. 인증이나 DHCP, 기타 다른 유무선 기기의 요소를 분류해야 한다.
머신러닝
이제 문제는 한 영역에 특화된 일군의 메타데이터로 나눠지고, 사용자는 이 정보를 머신러닝이란 마법과 같은 강력한 세상에 주입할 준비를 마친 상태가 된다. 머신러닝 알고리즘과 기법은 무수히 많은데, 딥러닝처럼 신경망을 사용하는 머신러닝이 가장 인기있는 접근 방법의 하나로 떠오르고 있다. 신경망 개념이 등장한 것은 1949년으로, 필자가 처음 신경망을 구축한 것도 1980년대였다. 하지만 최근 컴퓨트와 스토리지 용량이 증가하면서 신경망은 이미지 인식이나 자연어 처리부터 네트워크 성능 예측까지 다양한 실제 세계의 문제를 해결할 수 있도록 훈련 받고 있다. 이외에도 이상 기능 발견이나 시계열 이상행동 탐지, 이벤트 상관관계 분석 등에도 활용하고 있다.
협업 필터링
대부분 사람이 넷플릭스에서 영화를 고를 때나 아마존에서 물건을 살 때, 또 좋아할 만한 영화나 상품을 추천 받을 때 협업 필터링을 경험한다. 이런 추천 기능 외에도 협업 필터링은 대규모 데이터를 정렬하거나 AI 솔루션의 양상을 일변시키는 데 사용한다. 협업 필터링은 모든 데이터 수집과 분석이 의미있는 인사이트나 실행에 맞춰져 있다. 의사가 사용하든 네트워크 관리자가 사용하든 협업 필터링은 높은 정확도를 가진 해답을 제공하는 수단이다. 마치 복잡한 문제를 해결하는 데 도움을 주는 가상 비서와 같은 것이다.
인공지능은 여전히 아주 초기 단계의 영역이다. 하지만 그 영향력은 엄청나며, 일상에서 더 큰 부분을 차지할수록 더욱 민감하게 느껴질 것이다. AI 솔루션을 고를 때는 자동차를 고를 때처럼 그 속에 어떤 것이 들어 있는지 이해해야만 필요에 맞는 최상을 제품을 구매할 수 있다.
*Bob Friday는 미스트 시스템즈(Mist Systems)의 공동 설립자이자 CTO이다. editor@itworld.co.kr