AIㆍML / BI|분석

머신러닝을 실패로 이끄는 6가지 방법

Bob Violino | InfoWorld 2018.10.15


머신러닝 실패 원인 4. 편견
저품질 데이터 집합을 사용할 경우 잘못된 결론에 이를 수 있다. 저품질 데이터는 부정확한 데이터, 누락된 데이터뿐만 아니라 편견의 원인이 되기도 한다. 사람은 편견을 가질 수 있으므로 사람이 만들거나 영향을 미친 모델 역시 당연히 편견을 가질 수 있다.

엡스타인은 균형이 맞지 않는 분류나 분포에 대한 민감도는 머신러닝 알고리즘에 따라 다르다고 말했다. 엡스타인은 이 부분을 감안하지 않을 경우, 예를 들어 피부색에 의존하는 얼굴 인식 툴이나 성별에 따른 편견을 가진 모델을 만들게 될 수 있다고 말했다. 실제로 여러 상용 서비스에서 이미 편견 사례가 발생했다.

사람이든 알고리즘이든 결론의 정확성은 가공되는 정보의 폭과 품질에 의해 좌우된다. 컨설팅 업체 딜로이트(Deloitte)의 자문 분석 서비스 책임자인 빅 캐트얄은 재정, 법률, 평판과 관련하여 조직과 개인이 직면한 알고리즘 편견의 위험성을 감안하면 머신러닝을 사용하는 모든 기업은 윤리를 조직적 필수 덕목으로 갖춰야 한다고 말했다.

알고리즘 편견의 징후는 신용 평가, 교육 과정, 채용, 범죄에 대한 양형 등 공공 분야에서 잘 문서화되어 있다. 허술하게 수집, 조율 또는 응용된 데이터는 설계와 의도가 충실한 머신러닝 애플리케이션에도 편견을 유발할 수 있다.

캐트얄은 처음부터 편견을 갖고 시작하는 머신러닝 시스템은 특정 고객 또는 사회 구성원에 불이익을 줄 위험이 있으며, 불공정한 결과를 생성하거나 그러한 결과를 영구화할 수 있다고 지적했다.

컨설팅 업체 맥킨지앤컴퍼니(McKinsey & Company)는 2017년 보고서에서 머신러닝의 목적 자체를 흐릴 수 있다는 면에서 알고리즘 편견이 머신러닝의 가장 큰 위험 요소 중 하나라고 지적했다. 맥킨지는 편견이 값비싼 오류를 유발할 수 있지만 간과되는 경우가 많으며, 그대로 방치할 경우 프로젝트와 조직을 완전히 엉뚱한 방향으로 이끌 수 있다고 경고했다. 맥킨지는 이 문제에 초반부터 효과적으로 대처할 경우 머신러닝의 진정한 잠재력을 더 효율적으로 실현하여 좋은 결과를 얻을 수 있다고 전했다.

머신러닝 실패 원인 5. 부족한 인프라 자원
조직은 머신러닝 이니셔티브를 출범할 때 인력과 인프라에 필요한 리소스를 과소평가하기 쉽다. 머신러닝, 특히 이미지, 비디오, 오디오 처리의 경우 인프라 요구 사항이 상당히 높다. 존슨은 필요한 처리 성능이 뒷받침되지 않으면 머신러닝 기반 솔루션을 적시에 개발하기가 어렵고 개발 자체가 아예 불가능한 경우도 있다고 말했다.

배치 및 소비 문제도 있다. 머신러닝 솔루션을 배치하고 머신러닝의 결과를 사용자가 소비하도록 하기 위한 필수 인프라가 없다면 도대체 무엇을 위해 머신러닝 솔루션을 개발하는가?

머신러닝을 지원하기 위한 확장 가능한 인프라를 배치하는 일은 많은 비용이 들고 유지하기도 어렵다. 그러나 필요에 따라 프로비저닝할 수 있는 확장 가능한 머신러닝 플랫폼을 제공하는 다양한 클라우드 서비스를 찾아볼 수 있다. 클라우드를 활용하면 실제 하드웨어 구입, 구성, 배포의 족쇄 없이 대규모로 머신러닝을 실험하는 것이 가능하다.

내부에 인프라를 갖추기를 원하는 조직도 있다. 이 경우에도 클라우드 서비스는 디딤돌 및 교육 경험이라는 측면에서 유용하다. 이를 통해 조직은 대규모 투자에 앞서 인프라 관점에서 무엇이 필요한지 파악할 수 있기 때문이다.

인력의 경우 데이터 과학자, 머신러닝 엔지니어와 같은 전문 인력의 부족이 머신러닝 개발과 배치를 지연시키는 요인이 되기도 한다. 특정 비즈니스 성과를 달성할 수 있는지 여부를 판단하려면 머신러닝의 개념을 이해하고 응용과 해석에 능숙한 인력이 필수 요소다.

존슨도 숙련된 머신러닝 인력의 중요성을 간과해서는 안 된다고 말했다. 숙련된 인력은 데이터 품질 문제를 파악하고 머신러닝 툴의 적절한 사용과 배포를 보장하고 모범 사례와 거버넌스 정책을 수립하는 데 있어 중요한 역할을 한다.

머신러닝 실패 원인 6. 부실한 계획과 거버넌스의 부재
열정을 갖고 머신러닝을 시작하더라도 이후 추진력을 잃으면서 서서히 멈추는 경우가 있다. 이는 부실한 계획과 거버넌스 부재를 나타내는 신호다. 존슨은 적절한 가이드라인과 제한을 두지 않을 경우 머신러닝 작업은 끝없이 늘어지면서 아무런 혜택도 얻지 못한 채 막대한 자원만 소비하는 결과로 이어질 수 있다고 말했다.

조직은 머신러닝이 반복적 프로세스라는 점과 변화하는 요구 사항을 충족하기 위해 수시로 모델을 수정해야 할 수도 있음을 인지해야 한다. 이러한 특성 탓에 머신러닝 작업에 참여하는 인력은 시간이 지나면서 흥미를 잃을 수 있으며, 이는 좋지 않은 결과로 이어지게 된다. 결국 머신러닝 프로젝트의 지지자는 다른 작업으로 눈을 돌리게 되고 머신러닝 작업은 진전 없이 그대로 방치된다.

존슨은 원활한 운영을 위해서는 머신러닝 작업을 정기적으로 모니터링해야 한다고 말했다. 진행 속도가 저하되기 시작한다면 잠시 멈추고 프로젝트를 재점검해야 할 시점일 수 있다.  editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.