2017.03.28

데이터 과학자·머신 러닝을 활용한 비즈니스 성공 전략

Tom Macaulay | Computerworld UK
머신 러닝이 현대 비즈니스의 핵심 기술로 부상하고 있지만, 실질적으로 그것을 어떻게 적용할 지의 여부에 관한 논의는 아직 부족한 부분이 많은 것이 현실이다.

머신 러닝 및 데이터 애널리틱스 전문 업체 얀덱스 데이터 팩토리(Yandex Data Factory)의 CEO 제인 자발리시나는 “가장 큰 문제는 데이터 과학이 아직 ‘과학’의 영역에 남아있다는 점이다. 현실의 기업들은 자신들의 의사 결정에 과학적 방법론을 적용하는 것에 익숙하지 않다”라고 설명했다.

얀덱스 데이터 팩토리는 러시아 최대의 검색 엔진의 운영사인 다국적 기술 기업 얀덱스에서 분사된 자회사다. 2014년 12월, 얀덱스는 얀덱스 데이터 팩토리를 런칭하며 산업 애플리케이션을 대상으로 한 머신 러닝 기반 서비스 공급용 핵심 상품을 지원하는데 자신들의 데이터 과학 기능을 확장 적용했다.

얀덱스 데이터 팩토리는 러시아 최대의 검색 엔진을 운영하고 있는 다국적 기업 얀덱스에서 분사된 자회사다. 이들 업체가 공급하는 머신 러닝 및 데이터 과학 서비스 기반 예측적 모델은 타깃형 광고 캠페인 운영, 매장 재고 주문 판단 등의 기능을 수행한다.

얀덱스 데이터 팩토리팀은 실험적 방법론를 통해 자신들의 발견을 검증하며, 성공 여부에 대한 판단은 오직 실험의 결과를 통해서만 확증된다.

자발리시나는 “직원에게 몇 가지 업무를 지시한다 상상해보자. 이때 기대하는 결과물은 거의 완전에 가까운 수준일 것이다. 하지만 데이터 과학자의 업무에 있어 ‘완전에 가까운 결과물’이란 가능하지 않은 개념이다. 데이터 과학은 보증된 결과를 기대할 수 없는 분야이기 때문이다”라고 말했다.

데이터 과학 프로젝트에서 실패는 자연스런 결과 가능성의 하나이며, 기업 관리자들은 이 점을 받아들여야 한다는 것이 자발리시나의 설명이다.

데이터 과학이 낯선 이유
데이터 과학자와의 작업은 논리가 창의성을 억누르고, 현실이 믿음을 덮어버리는, 기업에겐 일종의 대안적 접근법을 요구하는 일이다. 다시 말해 데이터 과학이란 ‘일어날지도 모르는’ 상상이 아닌 철저히 논리에 의존하는 활동인 것이다.

이런 특성으로 인해 데이터 과학은 종종 무의미한 질문과 마주한 상황에서 혼란에 빠지기도 한다. 자발리시나는 “데이터 과학자들에게 이것은 비유하자면, 숫자를 0으로 나누는 것과 같은 비논리적인 상황이다. 그들에게 이 의미 없는 작업을 지시할 수 없다. 당신이 제시한 무의미한 질문을 보며 그들은 당신을 멍청이로 바라보게 될 것이고, 서로간의 관계는 발전에 제약을 받게 될 것이다”라고 설명했다.

데이터 과학자들은 자신들이 참여할 프로젝트의 핵심을 이해하고, 그것의 논리성에 납득하길 기대하는 집단이다. 예를 들어 그들에게 머신 러닝을 적용해 시스템을 개선해야 하는 과제가 주어진다면, 그들은 의미 있는 결과 측정을 위한 충분한 규모의 데이터를 필요로 할 것이다.

얀덱스 데이터 팩토리의 COO 알렉산더 케이틴은 “기업이 내리는 결정 가운데는 직관에 의존하는 경우가 많으며, 따라서 결정에 영향을 미치는 데이터 전부를 철저히 측정하지 않는 경우가 일반적이다. 그러나 데이터 과학 프로젝트, 또는 데이터 과학자와의 협업 과정에서는 ‘이걸 해보면 어떨까요? 괜찮을 것 같은 느낌인데요?’라는 식의 요청은 적절하지 못하며, 온전히 효과를 발휘하지도 못할 것이다”라고 강조했다.

올바른 질문의 중요성
예측적 애널리틱스 모델링이 의존하는 알고리즘의 복잡도는 전통적 통계 시스템과는 비교할 수 없는 수준이며, 따라서 그것을 설명하는 일은 매우 어려운 작업으로 남는다.

소매 산업에서는 주간 상품 주문을 위한 재고 보충 요구량 예측에 데이터 과학을 활용하는 것이 유행으로 자리잡고 있다. 실제 데이터 과학이 도출하는 성과는 놀라운 수준이지만, 그 예측 처리 과정에는 무수한 요인이 영향을 미치기 때문에 그것들을 하나하나 설명하기란 매우 어려운 경우가 많다.

자발리시나는 “데이터의 복잡도를 이해하지 못하는 사람에게 결과 도출 과정을 설명하기란 사실상 불가능한 일이다. 하지만 이해할 수 없다고 해서 그것의 가치를 단순한 상식 혹은 비즈니스의 관점으로 쉽사리 판단해버리는 태도를 취해서는 안될 것이다. 핵심은 개선을 원하는 대상이 무엇이고, 그것의 결과를 어떻게 판단할지를 확실히 하는데 있다”라고 설명했다.

그는 “이는 창의성의 문제가 아니다. 데이터 과학은 명확성을 지향하고 최대한의 예측 혹은 최적화를 추구하는, 수학의 영역이다. 답은 질문에 좌우될 것이다”라고 강조했다.

잘못된 질문을 던져놓고 올바른 답을 기대하는 것은 불가능한 일이다. 그럼에도 이런 문제는 심심치 않게 벌어지는 것이 현실이다. 여전히 많은 기업들이 자신들의 목표에 대한 총체적인 계획과 평가지표 없이 프로젝트에 임하고 있다.

자발리시나는 “과거 우리는 거대 소매 유통사와 프로젝트를 진행한 적이 있다. 당시 그들로부터 전달된 요구는, 자신들이 다음 주 판매할 각 제품의 수량을 개별적으로 예측해줄 모델을 개발해달라는 것이었다. 한 개의 품종에 대해서 해당 작업을 시도해보긴 했지만, 진짜 문제는 (그런 예측이 가능하다 해도) 그것이 실질적으로 아무런 쓸모가 없다는데 있었다”라고 자신들의 사례를 소개했다.

그들의 모델은 정확했지만, 문제는 이들 고객사가 상품을 낱개 단위가 아닌 6개 패키지로 주문해오던 기업이라는 점이었다. 즉, 예측 모델이 다음 주 필요 수량을 7개로 예측한다면, 업체의 입장에선 한 패키지를 주문해야 할지, 두 패키지를 주문해야 할 지의 또 다른 문제와 마주해야 했던 것이다. 이는 작은 변화에 불과할지 모르는 부분이지만, 동시에 문제에 대한 접근 자체가 잘못됐음을 보여주는 지점이기도 했다. 결국 모델은 완전히 재조정이 이뤄졌다. 최적화 지표가 완전히 바뀌었기 때문이다.

데이터 과학은 신중한 계획을 요구하는 활동이다. 올바른 답을 얻고 싶다면, 올바른 질문이 선행돼야 함을 기억할 필요가 있다.

성공의 길목에 놓인 실패
얀덱스 데이터 팩토리의 또 다른 소매산업의 고객사의 경우에는 최적화 모델을 통해 판매량이 적어 정기적 주문이 요구되지 않는, 고가의 특수 제품 관리에 적용한 사례가 있다. 모델이 이들 고객사에게 제공한 것은 수학적으로 완벽히 논리적인 것이었지만, 기업의 측면에선 의미를 지니지 못하는 것이었다. 매출에서 차지하는 비중은 미미하지만 상점의 정체성과 고객 기반에 핵심적인 역할을 하는 상품들이었기 때문이다.

자발리시나는 “데이터 과학 프로젝트나 머신 러닝 프로젝트에 돌입하기에 앞서, 조금 더 시간을 가지고 원하는 지표가 무엇이고, 달성하고자 하는 목표가 무엇인지를 신중히 고민할 필요가 있다”라고 설명했다.

일반적으로 얀덱스는 첫 프로젝트는 매우 구체적이고 단기적인 차원으로 도전해볼 것을 고객사들에게 제안한다. 장기적 투자가 무용지물로 돌아갈 위험을 막기 위해서다. 이후 첫 프로젝트가 성공했다면 단계적 개선을 통해 궁극적으로 원하는 목표에 도달이 가능하다.

얀덱스의 또 다른 고객은 고객 유형에 따른 프로모션 발송 내용을 판단하는 자체 시스템을 이미 보유하고 있는 기업이었다. 그리고 얀덱스가 개발한 새로운 추천 시스템은 머신 러닝 알고리즘 기반의 통계적 모델을 활용해 프로모션 전송의 임의성 수준을 조절할 수 있는 솔루션이었다. 고객사는 소비자 집단을 둘로 나눠 자사 기존 시스템과 얀덱스 신규 시스템에 각각 타깃으로 지정하고 각 소비자 집단에서 프로모션 오퍼가 실제 구매로 이어지는 전환율 수준을 비교하는 실험을 진행했다.

문제는 기존 시스템이 적용된 집단에는 금요일에, 그리고 신규 시스템이 적용된 집단에는 주말에 프로모션이 발송됐다는 점이었다. 시간 기준에 따른 고객 행동 패턴 변화는 두 시스템 간의 비교를 무의미하게 만들었다.

얀덱스를 찾은 많은 기업 관리자들이 머신 러닝과 데이터 과학이 전달하는 비즈니스 가치를 이해하기 위해 직접 관련 강의를 수강하는 것이 가능할지 문의하곤 한다. 자발리시나는 “그리고 그런 문의에 우리가 전하는 답은 대부분 ‘어렵다’는 것이다. 이는 말이 되지 않는 일이다. 강의를 듣는다고 데이터 과학자로 거듭날 수 없음은 물론이고, 그것으로부터 얻을 수 있는 도움도 실질적으로 없다. 업무에 기술을 적용할 수 있는 역량을 원하는 것이라면, 과학적 측정, 실험, 접근법을 익히는 것이 보다 도움이 될 것이다. 우리의 기술이 의미 있는 결과를 전달할 수 있으려면, 기업이 보다 과학적인 마인드셋을 갖추는 것이 보다 필요한 일이다”라고 이야기했다.

불확실성을 인정하는 태도
기업에겐 과학적 문화를 받아들이는 자세가 요구된다. 과학적 문화란, 부정적인 결과를 작업의 실패를 의미하는 것이 아닌, 최적화가 잘 동작하지 않은 것일 뿐이라고 받아들이는 태도이다.

기업 환경의 책임 구조 역시 어려움을 주는 부분이다. 얀덱스는 광고 지출 최적화를 희망하는 고객사 한 곳을 지원한 바 있다. 얀덱스가 개발한 알고리즘은 이전과 동일한 수준의 반응률을 구현하며 비용을 20% 절감하는 성과를 약속했다.

모델 도입 후 확인한 바에 따르면, 결과를 획득하는 것보다 더 큰 어려움은 도출한 결과값을 활용하는 과정에 있었다. 프로젝트를 담당한 직원은 최적 결과 달성을 위해 필요한 조달 계획 및 결정에 의거해 성과급을 수령했다.

자발리시나는 “이제 그들은 자신들이 원하던 조언을 전달해주는 모델을 보유하게 됐다. 그리고 실제 수학적으로도 판단 수준은 한층 개선됐다. 문제는 이후의 그것을 사용하는 것과 관련한 책임은 온전히 그들에게 있다는 점이다”라고 말했다.

데이터 과학 프로젝트는 하나의 기업 안에 서로 상충되는 책무, 우선순위가 존재함을 인정한다. 다시 말해 위의 고객사를 담당한 팀의 경우 실행단까지 책무를 질 수도 있었고, 그 경우 그들의 성과급은 감소할 수도 있었던 것이다.

케이틴은 “과학적 접근법이란 보다 논리적이고, 측정 가능한 방법론이다. 그러나 이런 태도가 때로는 일종의 충돌 상황을 야기할 수도 있다”라고 이야기했다.

케이틴은 “일반적인 의사결정의 목적은 파괴적 상황의 가능성을 최소화하는데 있다. 예를 들어 어떤 전문가는 당신에게 ‘나에겐 직관이 있고, 아이디어가 있어. 보아하니 상황은 이렇게 흘러가겠어’라고 말할 수도 있다. 그런데 몇 가지 데이터 과학 도구, 데이터 과학 프로젝트가 갖춰져 있다면, 얘기는 완전히 달라진다. 여기에 직관이라는 요소가 끼어들 여지는 없다”라고 설명을 덧붙였다.

사업적인 접근법과 과학적 접근법을 통합하는 것은 매우 복잡한 과정이며, 많은 인내와 이해를 요구한다는 것이 케이틴이 설명하는 핵심이다. 얀덱스가 지원한 철강 제조업체 한 곳은 생산 공정에 사용되는 재료 혼합의 균형을 최적화하는 니즈를 전해왔다. 얀덱스는 특정 요소의 양을 늘려 품질을 개선할 방안을 포착했지만, 동시에 해당 요소의 증대는 생산 비용 추가를 요구했다.

얀덱스는 기존 데이터와 머신 러닝 알고리즘을 통해 확보한 조합 정보를 활용해 품질과 비용 간의 최적 균형점을 선택할 정확한 모델을 개발했다.

자발리시나는 “우리가 도출한 최적 조합은 고객사에겐 의미 없는 정보로 받아들여졌다. 우리의 제안을 본 고객사는 ‘이건 효과 없을 겁니다. 우리는 할 수 없어요. 우리는 이와는 다른 것을 할겁니다’라고 말할 뿐이었다”라고 설명했다.

그는 “우리의 제안은 분명 보다 최적화된 내용이었지만, 고객사에겐 전문가들의 시각(선호)가 확고히 자리잡고 있는 상태였다. 이 문제를 어떻게 다룰 수 있을까? 이들과의 작업에서, 우리의 제안 가운데 80%가 활용되지도 못하고 폐기됐다”라고 덧붙였다.

문제 상황에 대한 해결책으로 얀덱스는 새로운 알고리즘을 개발했다. 가능한 최적 조합들을 계산하되, 그 종단에 해당 제안이 고객사에서 받아들여질 가능성 전망을 추가적으로 반영하는 알고리즘이었다. 이를 통해 이들 업체는 수학적 관점에서 완벽한 최적화가 아니더라도, 인간에 의해 받아들여질 가능성이 높은 최적 결과를 도출할 수 있었다.

인공 지능이 인류를 파괴할 수 있다는 공포는 오랜 기간 존재해왔다. 그러나 머신 러닝과 인간의 연대가 없다면 데이터 과학은 완성될 수 없음을 기억하자. editor@itworld.co.kr

2017.03.28

데이터 과학자·머신 러닝을 활용한 비즈니스 성공 전략

Tom Macaulay | Computerworld UK
머신 러닝이 현대 비즈니스의 핵심 기술로 부상하고 있지만, 실질적으로 그것을 어떻게 적용할 지의 여부에 관한 논의는 아직 부족한 부분이 많은 것이 현실이다.

머신 러닝 및 데이터 애널리틱스 전문 업체 얀덱스 데이터 팩토리(Yandex Data Factory)의 CEO 제인 자발리시나는 “가장 큰 문제는 데이터 과학이 아직 ‘과학’의 영역에 남아있다는 점이다. 현실의 기업들은 자신들의 의사 결정에 과학적 방법론을 적용하는 것에 익숙하지 않다”라고 설명했다.

얀덱스 데이터 팩토리는 러시아 최대의 검색 엔진의 운영사인 다국적 기술 기업 얀덱스에서 분사된 자회사다. 2014년 12월, 얀덱스는 얀덱스 데이터 팩토리를 런칭하며 산업 애플리케이션을 대상으로 한 머신 러닝 기반 서비스 공급용 핵심 상품을 지원하는데 자신들의 데이터 과학 기능을 확장 적용했다.

얀덱스 데이터 팩토리는 러시아 최대의 검색 엔진을 운영하고 있는 다국적 기업 얀덱스에서 분사된 자회사다. 이들 업체가 공급하는 머신 러닝 및 데이터 과학 서비스 기반 예측적 모델은 타깃형 광고 캠페인 운영, 매장 재고 주문 판단 등의 기능을 수행한다.

얀덱스 데이터 팩토리팀은 실험적 방법론를 통해 자신들의 발견을 검증하며, 성공 여부에 대한 판단은 오직 실험의 결과를 통해서만 확증된다.

자발리시나는 “직원에게 몇 가지 업무를 지시한다 상상해보자. 이때 기대하는 결과물은 거의 완전에 가까운 수준일 것이다. 하지만 데이터 과학자의 업무에 있어 ‘완전에 가까운 결과물’이란 가능하지 않은 개념이다. 데이터 과학은 보증된 결과를 기대할 수 없는 분야이기 때문이다”라고 말했다.

데이터 과학 프로젝트에서 실패는 자연스런 결과 가능성의 하나이며, 기업 관리자들은 이 점을 받아들여야 한다는 것이 자발리시나의 설명이다.

데이터 과학이 낯선 이유
데이터 과학자와의 작업은 논리가 창의성을 억누르고, 현실이 믿음을 덮어버리는, 기업에겐 일종의 대안적 접근법을 요구하는 일이다. 다시 말해 데이터 과학이란 ‘일어날지도 모르는’ 상상이 아닌 철저히 논리에 의존하는 활동인 것이다.

이런 특성으로 인해 데이터 과학은 종종 무의미한 질문과 마주한 상황에서 혼란에 빠지기도 한다. 자발리시나는 “데이터 과학자들에게 이것은 비유하자면, 숫자를 0으로 나누는 것과 같은 비논리적인 상황이다. 그들에게 이 의미 없는 작업을 지시할 수 없다. 당신이 제시한 무의미한 질문을 보며 그들은 당신을 멍청이로 바라보게 될 것이고, 서로간의 관계는 발전에 제약을 받게 될 것이다”라고 설명했다.

데이터 과학자들은 자신들이 참여할 프로젝트의 핵심을 이해하고, 그것의 논리성에 납득하길 기대하는 집단이다. 예를 들어 그들에게 머신 러닝을 적용해 시스템을 개선해야 하는 과제가 주어진다면, 그들은 의미 있는 결과 측정을 위한 충분한 규모의 데이터를 필요로 할 것이다.

얀덱스 데이터 팩토리의 COO 알렉산더 케이틴은 “기업이 내리는 결정 가운데는 직관에 의존하는 경우가 많으며, 따라서 결정에 영향을 미치는 데이터 전부를 철저히 측정하지 않는 경우가 일반적이다. 그러나 데이터 과학 프로젝트, 또는 데이터 과학자와의 협업 과정에서는 ‘이걸 해보면 어떨까요? 괜찮을 것 같은 느낌인데요?’라는 식의 요청은 적절하지 못하며, 온전히 효과를 발휘하지도 못할 것이다”라고 강조했다.

올바른 질문의 중요성
예측적 애널리틱스 모델링이 의존하는 알고리즘의 복잡도는 전통적 통계 시스템과는 비교할 수 없는 수준이며, 따라서 그것을 설명하는 일은 매우 어려운 작업으로 남는다.

소매 산업에서는 주간 상품 주문을 위한 재고 보충 요구량 예측에 데이터 과학을 활용하는 것이 유행으로 자리잡고 있다. 실제 데이터 과학이 도출하는 성과는 놀라운 수준이지만, 그 예측 처리 과정에는 무수한 요인이 영향을 미치기 때문에 그것들을 하나하나 설명하기란 매우 어려운 경우가 많다.

자발리시나는 “데이터의 복잡도를 이해하지 못하는 사람에게 결과 도출 과정을 설명하기란 사실상 불가능한 일이다. 하지만 이해할 수 없다고 해서 그것의 가치를 단순한 상식 혹은 비즈니스의 관점으로 쉽사리 판단해버리는 태도를 취해서는 안될 것이다. 핵심은 개선을 원하는 대상이 무엇이고, 그것의 결과를 어떻게 판단할지를 확실히 하는데 있다”라고 설명했다.

그는 “이는 창의성의 문제가 아니다. 데이터 과학은 명확성을 지향하고 최대한의 예측 혹은 최적화를 추구하는, 수학의 영역이다. 답은 질문에 좌우될 것이다”라고 강조했다.

잘못된 질문을 던져놓고 올바른 답을 기대하는 것은 불가능한 일이다. 그럼에도 이런 문제는 심심치 않게 벌어지는 것이 현실이다. 여전히 많은 기업들이 자신들의 목표에 대한 총체적인 계획과 평가지표 없이 프로젝트에 임하고 있다.

자발리시나는 “과거 우리는 거대 소매 유통사와 프로젝트를 진행한 적이 있다. 당시 그들로부터 전달된 요구는, 자신들이 다음 주 판매할 각 제품의 수량을 개별적으로 예측해줄 모델을 개발해달라는 것이었다. 한 개의 품종에 대해서 해당 작업을 시도해보긴 했지만, 진짜 문제는 (그런 예측이 가능하다 해도) 그것이 실질적으로 아무런 쓸모가 없다는데 있었다”라고 자신들의 사례를 소개했다.

그들의 모델은 정확했지만, 문제는 이들 고객사가 상품을 낱개 단위가 아닌 6개 패키지로 주문해오던 기업이라는 점이었다. 즉, 예측 모델이 다음 주 필요 수량을 7개로 예측한다면, 업체의 입장에선 한 패키지를 주문해야 할지, 두 패키지를 주문해야 할 지의 또 다른 문제와 마주해야 했던 것이다. 이는 작은 변화에 불과할지 모르는 부분이지만, 동시에 문제에 대한 접근 자체가 잘못됐음을 보여주는 지점이기도 했다. 결국 모델은 완전히 재조정이 이뤄졌다. 최적화 지표가 완전히 바뀌었기 때문이다.

데이터 과학은 신중한 계획을 요구하는 활동이다. 올바른 답을 얻고 싶다면, 올바른 질문이 선행돼야 함을 기억할 필요가 있다.

성공의 길목에 놓인 실패
얀덱스 데이터 팩토리의 또 다른 소매산업의 고객사의 경우에는 최적화 모델을 통해 판매량이 적어 정기적 주문이 요구되지 않는, 고가의 특수 제품 관리에 적용한 사례가 있다. 모델이 이들 고객사에게 제공한 것은 수학적으로 완벽히 논리적인 것이었지만, 기업의 측면에선 의미를 지니지 못하는 것이었다. 매출에서 차지하는 비중은 미미하지만 상점의 정체성과 고객 기반에 핵심적인 역할을 하는 상품들이었기 때문이다.

자발리시나는 “데이터 과학 프로젝트나 머신 러닝 프로젝트에 돌입하기에 앞서, 조금 더 시간을 가지고 원하는 지표가 무엇이고, 달성하고자 하는 목표가 무엇인지를 신중히 고민할 필요가 있다”라고 설명했다.

일반적으로 얀덱스는 첫 프로젝트는 매우 구체적이고 단기적인 차원으로 도전해볼 것을 고객사들에게 제안한다. 장기적 투자가 무용지물로 돌아갈 위험을 막기 위해서다. 이후 첫 프로젝트가 성공했다면 단계적 개선을 통해 궁극적으로 원하는 목표에 도달이 가능하다.

얀덱스의 또 다른 고객은 고객 유형에 따른 프로모션 발송 내용을 판단하는 자체 시스템을 이미 보유하고 있는 기업이었다. 그리고 얀덱스가 개발한 새로운 추천 시스템은 머신 러닝 알고리즘 기반의 통계적 모델을 활용해 프로모션 전송의 임의성 수준을 조절할 수 있는 솔루션이었다. 고객사는 소비자 집단을 둘로 나눠 자사 기존 시스템과 얀덱스 신규 시스템에 각각 타깃으로 지정하고 각 소비자 집단에서 프로모션 오퍼가 실제 구매로 이어지는 전환율 수준을 비교하는 실험을 진행했다.

문제는 기존 시스템이 적용된 집단에는 금요일에, 그리고 신규 시스템이 적용된 집단에는 주말에 프로모션이 발송됐다는 점이었다. 시간 기준에 따른 고객 행동 패턴 변화는 두 시스템 간의 비교를 무의미하게 만들었다.

얀덱스를 찾은 많은 기업 관리자들이 머신 러닝과 데이터 과학이 전달하는 비즈니스 가치를 이해하기 위해 직접 관련 강의를 수강하는 것이 가능할지 문의하곤 한다. 자발리시나는 “그리고 그런 문의에 우리가 전하는 답은 대부분 ‘어렵다’는 것이다. 이는 말이 되지 않는 일이다. 강의를 듣는다고 데이터 과학자로 거듭날 수 없음은 물론이고, 그것으로부터 얻을 수 있는 도움도 실질적으로 없다. 업무에 기술을 적용할 수 있는 역량을 원하는 것이라면, 과학적 측정, 실험, 접근법을 익히는 것이 보다 도움이 될 것이다. 우리의 기술이 의미 있는 결과를 전달할 수 있으려면, 기업이 보다 과학적인 마인드셋을 갖추는 것이 보다 필요한 일이다”라고 이야기했다.

불확실성을 인정하는 태도
기업에겐 과학적 문화를 받아들이는 자세가 요구된다. 과학적 문화란, 부정적인 결과를 작업의 실패를 의미하는 것이 아닌, 최적화가 잘 동작하지 않은 것일 뿐이라고 받아들이는 태도이다.

기업 환경의 책임 구조 역시 어려움을 주는 부분이다. 얀덱스는 광고 지출 최적화를 희망하는 고객사 한 곳을 지원한 바 있다. 얀덱스가 개발한 알고리즘은 이전과 동일한 수준의 반응률을 구현하며 비용을 20% 절감하는 성과를 약속했다.

모델 도입 후 확인한 바에 따르면, 결과를 획득하는 것보다 더 큰 어려움은 도출한 결과값을 활용하는 과정에 있었다. 프로젝트를 담당한 직원은 최적 결과 달성을 위해 필요한 조달 계획 및 결정에 의거해 성과급을 수령했다.

자발리시나는 “이제 그들은 자신들이 원하던 조언을 전달해주는 모델을 보유하게 됐다. 그리고 실제 수학적으로도 판단 수준은 한층 개선됐다. 문제는 이후의 그것을 사용하는 것과 관련한 책임은 온전히 그들에게 있다는 점이다”라고 말했다.

데이터 과학 프로젝트는 하나의 기업 안에 서로 상충되는 책무, 우선순위가 존재함을 인정한다. 다시 말해 위의 고객사를 담당한 팀의 경우 실행단까지 책무를 질 수도 있었고, 그 경우 그들의 성과급은 감소할 수도 있었던 것이다.

케이틴은 “과학적 접근법이란 보다 논리적이고, 측정 가능한 방법론이다. 그러나 이런 태도가 때로는 일종의 충돌 상황을 야기할 수도 있다”라고 이야기했다.

케이틴은 “일반적인 의사결정의 목적은 파괴적 상황의 가능성을 최소화하는데 있다. 예를 들어 어떤 전문가는 당신에게 ‘나에겐 직관이 있고, 아이디어가 있어. 보아하니 상황은 이렇게 흘러가겠어’라고 말할 수도 있다. 그런데 몇 가지 데이터 과학 도구, 데이터 과학 프로젝트가 갖춰져 있다면, 얘기는 완전히 달라진다. 여기에 직관이라는 요소가 끼어들 여지는 없다”라고 설명을 덧붙였다.

사업적인 접근법과 과학적 접근법을 통합하는 것은 매우 복잡한 과정이며, 많은 인내와 이해를 요구한다는 것이 케이틴이 설명하는 핵심이다. 얀덱스가 지원한 철강 제조업체 한 곳은 생산 공정에 사용되는 재료 혼합의 균형을 최적화하는 니즈를 전해왔다. 얀덱스는 특정 요소의 양을 늘려 품질을 개선할 방안을 포착했지만, 동시에 해당 요소의 증대는 생산 비용 추가를 요구했다.

얀덱스는 기존 데이터와 머신 러닝 알고리즘을 통해 확보한 조합 정보를 활용해 품질과 비용 간의 최적 균형점을 선택할 정확한 모델을 개발했다.

자발리시나는 “우리가 도출한 최적 조합은 고객사에겐 의미 없는 정보로 받아들여졌다. 우리의 제안을 본 고객사는 ‘이건 효과 없을 겁니다. 우리는 할 수 없어요. 우리는 이와는 다른 것을 할겁니다’라고 말할 뿐이었다”라고 설명했다.

그는 “우리의 제안은 분명 보다 최적화된 내용이었지만, 고객사에겐 전문가들의 시각(선호)가 확고히 자리잡고 있는 상태였다. 이 문제를 어떻게 다룰 수 있을까? 이들과의 작업에서, 우리의 제안 가운데 80%가 활용되지도 못하고 폐기됐다”라고 덧붙였다.

문제 상황에 대한 해결책으로 얀덱스는 새로운 알고리즘을 개발했다. 가능한 최적 조합들을 계산하되, 그 종단에 해당 제안이 고객사에서 받아들여질 가능성 전망을 추가적으로 반영하는 알고리즘이었다. 이를 통해 이들 업체는 수학적 관점에서 완벽한 최적화가 아니더라도, 인간에 의해 받아들여질 가능성이 높은 최적 결과를 도출할 수 있었다.

인공 지능이 인류를 파괴할 수 있다는 공포는 오랜 기간 존재해왔다. 그러나 머신 러닝과 인간의 연대가 없다면 데이터 과학은 완성될 수 없음을 기억하자. editor@itworld.co.kr

X