2016.05.18

데이터 과학자에게는 어떤 일을 줘야 하나

Sarah K. White | CIO
최근 공개된 2016년 미국 내 최고의 직업 25종 보고서에서 글래스도어(Glassdoor)는 데이터 과학자를 최고의 직업으로 꼽았다. 1위라는 결과는 IT 부문에 국한된 이야기가 아니었다. 모든 산업 부문 가운데 1위를 차지했다.

해당 보고서에 따르면, 데이터 과학자 직종은 현재 1,736개의 일자리가 주인을 찾고 있었고, 중간 기준 연봉은 11만 5,840달러였으며 총점 5점 만점에 4.7점을 기록했다.

하지만 자격을 갖춘 후보자가 부족한 것 또한 현실이며, 데이터 과학자를 고용하는 기업들이 그들의 역량을 효과적으로 활용하는 방법에 대해 잘 모르는 경우가 많다.

트라이팩타(Trifacta)의 데이터 과학 책임자 타이 래튼베리는 기업들이 데이터 과학자들을 고용하고 활용하는 시도가 늘어나면서 그 역할이 점차 변화하고 발전하고 있다고 진단했다. 래튼베리는 이어 기업들은 데이터 과학자를 고용하고 나서야 활용도를 모색하기보다는 확실하게 수립된 계획을 갖고 데이터 전략을 실시할 필요성이 있다고 강조했다.

업무 기술서(job description)를 정의하라
데이터 과학자는 데이터를 관리할 뿐 아니라 데이터를 해석하고 다른 사람들에게 효과적으로 전달해야 한다는 기대치를 가지고 있다. 하지만 데이터 과학자 다수는 실제 분석에 시간을 소요하기보다는 정리하고 수집/분석하는 등 유지관리 모드에 치중하고 있다고 래튼베리가 말했다.

그는 "무엇이 가능하며 무엇이 진정한 모범 사례인지에 대해 모호한 경향성이 있다. 이를 명확히 정의하는데 성공한 데이터 과학자(와 고용 기업)는 실질적인 가치를 창출해낼 수 있을 것이다. 또 과대 광고와 현실을 구분하는 원칙을 만들어갈 수 있을 것이다"라고 말했다.

센드그리드(SendGrid)의 데이터 과학자 아론 비치는 데이터 과학 부서를 구축할 때 좋은 접근방식은 정보 과부하로 과학자를 수렁에 빠뜨리는 것이 아니라 실질적인 이익을 중심으로 데이터 분석법을 수립해가는 것이라고 말했다.

그는 "예를 들어 미가공 데이터를 의사 결정자들을 위해 실행 가능한 정보로 변환하는 방법에 대한 프로세스 측면에서 전략을 정의하는 것이 좋다"라고 말했다.

이를 위해서는 어떤 데이터가 필요하며 어떻게 해석해야 하는지를 담은 명확한 전략이 필요하다. 비치는 다음과 같이 설명했다.

"사실 데이터 과학은 다양하며 모호하게 정의된 업무다. 아직은 미성숙한 단계다. 그렇기 때문에 실제 업무와 연관시켜 그 일을 명확히 정의하기 전까지는 얼마나 많은 또는 어떤 종류의 데이터 과학자를 필요로 하는지 판단하기 어렵다. 센드그리드에서는 제품 및 엔지니어링 프로세스와 연관지어 데이터 과학 업무와 경력을 정의하고 있다. 이는 우리가 얼마나 많은 데이터 과학자가 필요한지 판단하는데 도움이 된다. 특히 필요한 기술을 직접적으로 정의할 수 있게 된다."

조율된 접근방식
데이터 과학은 새로운 분야이며 대부분의 데이터 과학자는 통계 분석, 도메인(Domain) 및 비즈니스 전문지식, 코드 작성 등의 배경 지식이 있는 경우가 많다. 래튼베리는 그러나 단순히 이 모든 것들이 가능하기 때문에 반드시 그렇게 해야 하는 것은 아니라고 지적했다. 대신에 좀더 조율된 접근 방식을 수립하는데 집중해야 한다는 설명이다.

그는 "대부분의 경우 데이터의 다양성과 잠재적인 데이터 적용의 다양성으로 인해 많은 사람의 노력이 필요하다. 각각 특화된 역할을 담당할 필요가 있다"라고 말했다.

래튼베리는 데이터 과학자들이 빛을 발할 수 있는, 또 대부분의 시간과 에너지를 집중해야 하는 곳이 2곳이라고 말했다. 첫 번째는 미가공 데이터 획득 또는 데이터 생성과 관련된 것이다. 즉, 데이터 과학자는 데이터를 활용하는 가장 유용한 방법 그리고 데이터를 저장 및 관리하는 가장 좋은 방법을 찾는데 집중해야 한다는 뜻이다.

두 번째는 데이터가 기업에 어떻게 유익을 가져오며 기업의 목표를 달성하고 데이터를 이용해 "기업 내에서 자동화된 프로세스를 유도하기" 위해 어떤 자원이 필요한 지를 살펴보는 작업이라고 그는 덧붙였다.

욕심을 버려라
또한 기업은 데이터에 대한 욕심을 버려야 한다. 많을수록 좋다는 생각은 데이터에 적용되지 않기 때문이다. 래튼베리는 "연구하고 가치를 평가할 수 있는 능력 이상의 수준으로 데이터를 수집하고 있을 수 있다. 이 문제를 해결하는 방법은 분석하는 데이터를 더욱 신중하게 선별하는 것이다"라고 말했다.

래튼베리에 따르면 유연한 접근방식을 채택함에 있어 기업들은 효과가 있는 것과 없는 것, 핵심 활동자, 특정 데이터 포인트(Data Point)와 관련된 가치 등을 검토할 수 있다.

한편 데이터의 우선순위를 설정할 때 데이터 과학자뿐 아니라 기업의 다른 이들도 참여할 필요가 있다. 데이터 과학자가 모든 부서가 필요로 하는 데이터를 예측하거나 알 수 없기 때문에 효과적인 데이터 전략 이행을 위해서는 개인적인 노력이 아닌 기업 측면의 노력이 필요하다.

래튼베리는 "모든 직원에게 다양한 조합의 상대적인 가치를 평가하는 방법에 대한 가설 수립 업무에 참여하도록 요청한다면 기업의 데이터 분석 역량을 효과적으로 높일 수 있다. 이것은 진정한 데이터 중심적인 문화를 구축하는 핵심이기도 하다"라고 말했다.

현실적인 접근방식
데이터 과학 업무를 하려 한다면 현실적이어야 한다. 데이터 중심적인 전략을 구축할 때 절차를 무시하거나 비용을 절감하려 하면 안 된다. 왜냐하면 데이터는 단순히 또 다른 비즈니스 계획 이상이며 기업의 미래이기 때문이다.

예를 들어, 기업이 데이터에 관해 잘 알고 있다면 한 두 명의 데이터 과학자가 스스로 모든 일을 하도록 하기보다는 데이터 관리 전담 직원과 이를 분석할 사람을 고용해야 할 수도 있다.

사실 예상보다 더 많은 사람을 고용해야 할 경우가 빈번하다. 왜냐하면 데이터는 단순히 한 두 사람이 관리하고 분석할 수 있는 것이 아니기 때문이다. 데이터를 최대한 활용하고 싶다면 이를 뒷받침하는 예산, 인력, 자원이 필요하다.

이는 데이터 과학과 IT의 분리를 의미할 수도 있다고 래튼베리가 말했다. 완전히 분리되어야 한다는 것은 아니지만 같은 팀이 아니게 되는 것이다. 그는 "일반적으로 IT와 전담 데이터 조직이 어느 한 쪽에 보고하지 않는 것이 가장 좋다. 동등한 조직으로서 그들의 노력을 조율할 수 있는 중앙 조직과 협력해야 한다"라고 말했다.

기업은 데이터가 단순한 개념이 아니라는 사실을 이해해야 한다. 데이터 주도적 기업으로 발전하기 위해서는 많은 계획, 헌신, 자원이 필요하다.

래튼베리는 "점도 심오하게 이해하기 위한 핵심이 데이터다. 느린 기업들은 경쟁에서 뒤쳐지지 않기 위해 서둘러야 할 것이다. 중요한 것은 데이터 활용의 발전 및 개선에 투입할 자원과 경쟁력을 유지하기 위해 필요한 자원 사이의 균형이다. 이에 대한 고민이 필요한 시점이다"라고 말했다. ciokr@idg.co.kr


2016.05.18

데이터 과학자에게는 어떤 일을 줘야 하나

Sarah K. White | CIO
최근 공개된 2016년 미국 내 최고의 직업 25종 보고서에서 글래스도어(Glassdoor)는 데이터 과학자를 최고의 직업으로 꼽았다. 1위라는 결과는 IT 부문에 국한된 이야기가 아니었다. 모든 산업 부문 가운데 1위를 차지했다.

해당 보고서에 따르면, 데이터 과학자 직종은 현재 1,736개의 일자리가 주인을 찾고 있었고, 중간 기준 연봉은 11만 5,840달러였으며 총점 5점 만점에 4.7점을 기록했다.

하지만 자격을 갖춘 후보자가 부족한 것 또한 현실이며, 데이터 과학자를 고용하는 기업들이 그들의 역량을 효과적으로 활용하는 방법에 대해 잘 모르는 경우가 많다.

트라이팩타(Trifacta)의 데이터 과학 책임자 타이 래튼베리는 기업들이 데이터 과학자들을 고용하고 활용하는 시도가 늘어나면서 그 역할이 점차 변화하고 발전하고 있다고 진단했다. 래튼베리는 이어 기업들은 데이터 과학자를 고용하고 나서야 활용도를 모색하기보다는 확실하게 수립된 계획을 갖고 데이터 전략을 실시할 필요성이 있다고 강조했다.

업무 기술서(job description)를 정의하라
데이터 과학자는 데이터를 관리할 뿐 아니라 데이터를 해석하고 다른 사람들에게 효과적으로 전달해야 한다는 기대치를 가지고 있다. 하지만 데이터 과학자 다수는 실제 분석에 시간을 소요하기보다는 정리하고 수집/분석하는 등 유지관리 모드에 치중하고 있다고 래튼베리가 말했다.

그는 "무엇이 가능하며 무엇이 진정한 모범 사례인지에 대해 모호한 경향성이 있다. 이를 명확히 정의하는데 성공한 데이터 과학자(와 고용 기업)는 실질적인 가치를 창출해낼 수 있을 것이다. 또 과대 광고와 현실을 구분하는 원칙을 만들어갈 수 있을 것이다"라고 말했다.

센드그리드(SendGrid)의 데이터 과학자 아론 비치는 데이터 과학 부서를 구축할 때 좋은 접근방식은 정보 과부하로 과학자를 수렁에 빠뜨리는 것이 아니라 실질적인 이익을 중심으로 데이터 분석법을 수립해가는 것이라고 말했다.

그는 "예를 들어 미가공 데이터를 의사 결정자들을 위해 실행 가능한 정보로 변환하는 방법에 대한 프로세스 측면에서 전략을 정의하는 것이 좋다"라고 말했다.

이를 위해서는 어떤 데이터가 필요하며 어떻게 해석해야 하는지를 담은 명확한 전략이 필요하다. 비치는 다음과 같이 설명했다.

"사실 데이터 과학은 다양하며 모호하게 정의된 업무다. 아직은 미성숙한 단계다. 그렇기 때문에 실제 업무와 연관시켜 그 일을 명확히 정의하기 전까지는 얼마나 많은 또는 어떤 종류의 데이터 과학자를 필요로 하는지 판단하기 어렵다. 센드그리드에서는 제품 및 엔지니어링 프로세스와 연관지어 데이터 과학 업무와 경력을 정의하고 있다. 이는 우리가 얼마나 많은 데이터 과학자가 필요한지 판단하는데 도움이 된다. 특히 필요한 기술을 직접적으로 정의할 수 있게 된다."

조율된 접근방식
데이터 과학은 새로운 분야이며 대부분의 데이터 과학자는 통계 분석, 도메인(Domain) 및 비즈니스 전문지식, 코드 작성 등의 배경 지식이 있는 경우가 많다. 래튼베리는 그러나 단순히 이 모든 것들이 가능하기 때문에 반드시 그렇게 해야 하는 것은 아니라고 지적했다. 대신에 좀더 조율된 접근 방식을 수립하는데 집중해야 한다는 설명이다.

그는 "대부분의 경우 데이터의 다양성과 잠재적인 데이터 적용의 다양성으로 인해 많은 사람의 노력이 필요하다. 각각 특화된 역할을 담당할 필요가 있다"라고 말했다.

래튼베리는 데이터 과학자들이 빛을 발할 수 있는, 또 대부분의 시간과 에너지를 집중해야 하는 곳이 2곳이라고 말했다. 첫 번째는 미가공 데이터 획득 또는 데이터 생성과 관련된 것이다. 즉, 데이터 과학자는 데이터를 활용하는 가장 유용한 방법 그리고 데이터를 저장 및 관리하는 가장 좋은 방법을 찾는데 집중해야 한다는 뜻이다.

두 번째는 데이터가 기업에 어떻게 유익을 가져오며 기업의 목표를 달성하고 데이터를 이용해 "기업 내에서 자동화된 프로세스를 유도하기" 위해 어떤 자원이 필요한 지를 살펴보는 작업이라고 그는 덧붙였다.

욕심을 버려라
또한 기업은 데이터에 대한 욕심을 버려야 한다. 많을수록 좋다는 생각은 데이터에 적용되지 않기 때문이다. 래튼베리는 "연구하고 가치를 평가할 수 있는 능력 이상의 수준으로 데이터를 수집하고 있을 수 있다. 이 문제를 해결하는 방법은 분석하는 데이터를 더욱 신중하게 선별하는 것이다"라고 말했다.

래튼베리에 따르면 유연한 접근방식을 채택함에 있어 기업들은 효과가 있는 것과 없는 것, 핵심 활동자, 특정 데이터 포인트(Data Point)와 관련된 가치 등을 검토할 수 있다.

한편 데이터의 우선순위를 설정할 때 데이터 과학자뿐 아니라 기업의 다른 이들도 참여할 필요가 있다. 데이터 과학자가 모든 부서가 필요로 하는 데이터를 예측하거나 알 수 없기 때문에 효과적인 데이터 전략 이행을 위해서는 개인적인 노력이 아닌 기업 측면의 노력이 필요하다.

래튼베리는 "모든 직원에게 다양한 조합의 상대적인 가치를 평가하는 방법에 대한 가설 수립 업무에 참여하도록 요청한다면 기업의 데이터 분석 역량을 효과적으로 높일 수 있다. 이것은 진정한 데이터 중심적인 문화를 구축하는 핵심이기도 하다"라고 말했다.

현실적인 접근방식
데이터 과학 업무를 하려 한다면 현실적이어야 한다. 데이터 중심적인 전략을 구축할 때 절차를 무시하거나 비용을 절감하려 하면 안 된다. 왜냐하면 데이터는 단순히 또 다른 비즈니스 계획 이상이며 기업의 미래이기 때문이다.

예를 들어, 기업이 데이터에 관해 잘 알고 있다면 한 두 명의 데이터 과학자가 스스로 모든 일을 하도록 하기보다는 데이터 관리 전담 직원과 이를 분석할 사람을 고용해야 할 수도 있다.

사실 예상보다 더 많은 사람을 고용해야 할 경우가 빈번하다. 왜냐하면 데이터는 단순히 한 두 사람이 관리하고 분석할 수 있는 것이 아니기 때문이다. 데이터를 최대한 활용하고 싶다면 이를 뒷받침하는 예산, 인력, 자원이 필요하다.

이는 데이터 과학과 IT의 분리를 의미할 수도 있다고 래튼베리가 말했다. 완전히 분리되어야 한다는 것은 아니지만 같은 팀이 아니게 되는 것이다. 그는 "일반적으로 IT와 전담 데이터 조직이 어느 한 쪽에 보고하지 않는 것이 가장 좋다. 동등한 조직으로서 그들의 노력을 조율할 수 있는 중앙 조직과 협력해야 한다"라고 말했다.

기업은 데이터가 단순한 개념이 아니라는 사실을 이해해야 한다. 데이터 주도적 기업으로 발전하기 위해서는 많은 계획, 헌신, 자원이 필요하다.

래튼베리는 "점도 심오하게 이해하기 위한 핵심이 데이터다. 느린 기업들은 경쟁에서 뒤쳐지지 않기 위해 서둘러야 할 것이다. 중요한 것은 데이터 활용의 발전 및 개선에 투입할 자원과 경쟁력을 유지하기 위해 필요한 자원 사이의 균형이다. 이에 대한 고민이 필요한 시점이다"라고 말했다. ciokr@idg.co.kr


X