2014.04.18

좋은 데이터 과학자 구하기...데이터 과학자에게 주어진 네 가지 자질

Jonathan Hassell | CIO
받아들일 용의가 있고, 올바르게 활용할 수만 있다면 빅데이터가 주는 장점은 거부하기 힘든 수준이다. 빅데이터를 이용해 기업을 변화시킬 수 있고, 고객에게 좀 더 다가갈 수 있으며, 시장에서의 타깃 효율성과 이윤을 증가시킬 수도 있다. 이미 손 안에 있는 데이터를, 단지 알아보고 활용할 안목이 없어서 아깝게 버리고 있는 것이다.

데이터 과학자의 역할은 여기서 중요해진다. 데이터 과학자는 현재 시장에서 가장 ‘뜨거운’ 직종 중 하나다. 데이터 과학자에 적합한 인재는 숫자에 능숙하고, 기업 상황에 능하며 통계 컴퓨팅 언어를 마치 숙련된 피아니스트가 연주를 하듯 다룰 수 있는 사람일 것이다. 하지만 이런 이상적 인재상을 실제 직무 기술서와 채용 기준으로 치환하기란 쉽지 않다.

이 글에서는 팀에 알맞은 데이터 과학자의 자질이 무엇인지 살펴보는 한편, 데이터 과학자의 보수 문제에 대해서도 이야기할 것이다.

“데이터 과학자” 자체가 비교적 새로운 개념인데다가 아직 직업에 필요한 자질이 명확히 규정되지 않았다. 따라서, 데이터 과학자 이력서를 심사하거나 면접을 시행할 때는 세세한 평가 항목이나 기준을 정하는 데 있어 인사과와 협력하는 것이 좋다. 다음은 데이터 과학자의 역할에 알맞은 지원자를 가려내는 데 도움이 될 5가지 특징이다.

1. 훌륭한 데이터 과학자는 통계와 숫자 속 트렌드를 이해한다
모든 트렌드는 데이터로 나타난다. 예를 들어, 훌륭한 데이터 과학자라면 “이만큼의 고객이 이런 방식으로 행동한다”거나 “이 만큼이 고객이 이러이러한 부분에서 다른 고객들과 중복되는 행동을 보여주고 있다”를 파악할 수 있어야 한다. 방대한 양의 데이터 속에서, 트렌드는 숫자로 나타나기 때문이다.

훌륭한 데이터 과학자는 큰 숫자 속에 나타난 트렌드를 이해하고 그 트렌드를 예측 분석으로 옮길 수 있는 역량을 갖추고 있다. 또한 막대한 양의 데이터를 분석해 그 속에서 트렌드를 뽑아내고, 예측 모델링(predictive modelling) 테크닉을 이용해 총체적 데이터셋 전반의 행동을 예측할 수 있어야 한다. 경영진에 관련 내용을 보고하고 앞으로의 정책 방향에 관한 권고 사항을 전달하는 데 있어 통계 지식도 도움이 될 수 있다.

수학 학위가 있으면 더없이 좋겠지만, 대부분 데이터 과학자 지원자들은 수학보다는 좀 더 실용적인 학문을 택한 경우가 많다. 그렇지만 수학을 공부하지 않은 지원자가 오더라도 겁먹을 필요는 없다. 학사 수준이든 그 이상이든, 지원자가 걸어온 학업 과정에 통계에 집중하려 한 흔적이 보인다면 그는 충분히 데이터 과학자로서의 역할을 해낼 수 있는 인재다.

2. 훌륭한 데이터 과학자는 통찰력 있는 질문을 던진다
빅데이터가 매력적인 이유 중 하나는 거대하고 (대부분) 비구조화 된 데이터 더미 속에서 명확하고 실행 가능한 결론을 내릴 수 있다는 것이다. 전체 문맥 속에서 어떤 쿼리(query)를 질의해야 할 지, 알고자 하는 데이터가 어떤 것이며 그 중에 알기 어려운 데이터는 무엇인지 등을 모르는 상태에서 그저 특정 정보만을 찾기 위한 쿼리만 질문하는 것은 부족하다.

그렇다. 훌륭한 데이터 과학자는 쿼리를 질의하고 데이터베이스를 훑기만 하는 것이 아니다. 이들은 단순히 누군가가 이미 던진 질문에 대한 정해진 답을 찾는 것뿐 아니라 아직 아무도 던지지 않은 질문에 대한 새로운 통찰력을 가져다 줄 수 있도록 쿼리를 설계하고 제안한다.

이런 자질은 면접으로 알아내기 힘든 소프트스킬(soft skill)이라 생각할 지도 모르지만, 구체적인 상황을 설정해 이를 면접에서 시나리오로 제시하고 어떻게 해결할 지를 물어보면 지원자의 사고 프로세스, 문제 접근 방식, 문제의 답을 이끌어내는 방법, 그리고 기존의 쿼리에 부가적인 가치를 더할 수 있는 문제 제기 능력 등을 알아볼 수 있다. 면접 시 지원자들에게 ‘틀에서 벗어난 사고’가 중요함을 강조하고, 제시된 문제에만 제한된 답변을 하는 것은 바람직하지 못함을 미리 알려주자.

3. 좋은 데이터 과학자는 데이터베이스 설계와 실행에 능숙하다
오늘날 데이터 과학자들은 (앞서 얘기했듯) 탐구적인 대학 연구원의 자세와 소프트웨어 개발자 및 엔지니어의 자세 사이에서 균형을 잘 맞출 수 있어야 한다. 즉 실험실을 알맞게 설정하고 실험에 필요한 기계를 잘 다룰 수 있어야 한다는 것이다.

‘빅데이터’라는 카테고리에 해당되는 데이터 대부분이 비정형 데이터이긴 하지만, 관계형 데이터베이스와 컬럼-지향 데이터베이스(columnar database) 모두에 대한 근본적 이해가 있어야 데이터 과학자로서의 업무를 잘 해낼 수 있다.

많은 기업 데이터 웨어하우스들은 전통적인 로-지향 관계형 데이터베이스(row-based relational database)를 채택하고 있다. 빅데이터 자체는 얼마 안 된 개념이지만, 대부분의 실행 가능한 데이터 및 트렌드는 기존의 데이터베이스 형태로부터 도출되는 것이다.

데이터 과학자는 또한 애널리틱스와 운영 데이터베이스(production database)를 통해 신기술을 이용하는 데도 중요한 역할을 한다. 데이터베이스를 토대로 일해 본 경험 덕분에 새로운 시스템을 설계하는 데 많은 도움을 얻을 수 있는 것이다.

덧붙여, 많은 빅데이터 소프트웨어 개발자들이 제품 개발에 있어 SQL과 같은 언어를 사용하려 한다. 맵리듀스(MapReduce)식 언어를 배울 생각이 전혀 없는 기존 데이터베이스 관리자들에게 맞춰주기 위해서다. 즉 데이터 과학자가 전통적 SQL 언어를 알고 있으면 다른 데이터베이스 전문 직원들과 협력이 쉬워진다는 장점이 있다.

4. 훌륭한 데이터 과학자는 스크립팅 언어에 대한 기본적 이해를 지니고 있다
파이썬(Python) 프로그래밍 언어를 어느 정도라도 알고 있는 지원자라면 가산점을 줘도 좋을 것이다. 방대한 양의 비구조적 데이터 속에서 스크립트로 쿼리를 질의하게 되는데 여기에는 시간이 걸릴 수 있다.

파이썬은 컬럼-지향 데이터베이스 작업, 맵리듀스-스타일 쿼리 및 기타 데이터 과학자가 직면하게 되는 많은 문제들에 있어 가장 겸용이 가능하고, 다목적으로 쓰일 수 있는 스크립팅 언어로 인정받고 있다. 파이썬은 비교적 읽고 사용하기 쉬운 오픈소스 언어이므로 데이터 과학자 지원자들에게 커다란 문제가 되지 않을 것이다.

“의사 코드(pseudo code)” 기술도 고려해 볼만 하다. 알고리즘이나 쿼리가 어떤 식으로 작동할 지 순수하게 우리말로 설명할 수 있는지 보는 것이다. 이런 과제를 줌으로써 지원자의 사고 수준과 문제 해결 방식을 파악할 수 있음은 물론 지원자가 해당 언어에 대한 지식이 없는 상태에서도 어떤 식으로 그런 문제를 해결할 것인지 알 수 있다.

데이터 과학자에게 합당한 연봉을 지불하라
데이터 과학자에 대한 수요가 증가하는 반면 합당한 지원자의 수는 그에 미치지 못함에 따라 데이터 과학자의 임금도 오르고 있다. 미국 내 대부분 메이저 시장에서 데이터 과학자들은 수십만 달러급 연봉을 받고 있다. 이는 서부와 같은 고비용 시장보다도 훨씬 높은 연봉이다. 특히 실리콘 밸리에서는 자격을 갖춘 데이터 과학자들에게 여러 기업이 한꺼번에 손을 내미는 경우도 적지 않다.

따라서 데이터 과학자를 뽑을 때는 시장에 형성되어 있는 연봉보다 낮은 금액을 제시하지 않는 것이 좋다. 심지어 스타트업 기업들도 별볼 일 없는 자리에 형편 없는 임금을 주던 기존의 관행에서 벗어나 데이터 과학자들에게는 충분한 연봉과 함께 신제품 개발에 참여할 기회를 주고 있다. 세상에 공짜는 없는 법이다. ciokr@idg.co.kr


2014.04.18

좋은 데이터 과학자 구하기...데이터 과학자에게 주어진 네 가지 자질

Jonathan Hassell | CIO
받아들일 용의가 있고, 올바르게 활용할 수만 있다면 빅데이터가 주는 장점은 거부하기 힘든 수준이다. 빅데이터를 이용해 기업을 변화시킬 수 있고, 고객에게 좀 더 다가갈 수 있으며, 시장에서의 타깃 효율성과 이윤을 증가시킬 수도 있다. 이미 손 안에 있는 데이터를, 단지 알아보고 활용할 안목이 없어서 아깝게 버리고 있는 것이다.

데이터 과학자의 역할은 여기서 중요해진다. 데이터 과학자는 현재 시장에서 가장 ‘뜨거운’ 직종 중 하나다. 데이터 과학자에 적합한 인재는 숫자에 능숙하고, 기업 상황에 능하며 통계 컴퓨팅 언어를 마치 숙련된 피아니스트가 연주를 하듯 다룰 수 있는 사람일 것이다. 하지만 이런 이상적 인재상을 실제 직무 기술서와 채용 기준으로 치환하기란 쉽지 않다.

이 글에서는 팀에 알맞은 데이터 과학자의 자질이 무엇인지 살펴보는 한편, 데이터 과학자의 보수 문제에 대해서도 이야기할 것이다.

“데이터 과학자” 자체가 비교적 새로운 개념인데다가 아직 직업에 필요한 자질이 명확히 규정되지 않았다. 따라서, 데이터 과학자 이력서를 심사하거나 면접을 시행할 때는 세세한 평가 항목이나 기준을 정하는 데 있어 인사과와 협력하는 것이 좋다. 다음은 데이터 과학자의 역할에 알맞은 지원자를 가려내는 데 도움이 될 5가지 특징이다.

1. 훌륭한 데이터 과학자는 통계와 숫자 속 트렌드를 이해한다
모든 트렌드는 데이터로 나타난다. 예를 들어, 훌륭한 데이터 과학자라면 “이만큼의 고객이 이런 방식으로 행동한다”거나 “이 만큼이 고객이 이러이러한 부분에서 다른 고객들과 중복되는 행동을 보여주고 있다”를 파악할 수 있어야 한다. 방대한 양의 데이터 속에서, 트렌드는 숫자로 나타나기 때문이다.

훌륭한 데이터 과학자는 큰 숫자 속에 나타난 트렌드를 이해하고 그 트렌드를 예측 분석으로 옮길 수 있는 역량을 갖추고 있다. 또한 막대한 양의 데이터를 분석해 그 속에서 트렌드를 뽑아내고, 예측 모델링(predictive modelling) 테크닉을 이용해 총체적 데이터셋 전반의 행동을 예측할 수 있어야 한다. 경영진에 관련 내용을 보고하고 앞으로의 정책 방향에 관한 권고 사항을 전달하는 데 있어 통계 지식도 도움이 될 수 있다.

수학 학위가 있으면 더없이 좋겠지만, 대부분 데이터 과학자 지원자들은 수학보다는 좀 더 실용적인 학문을 택한 경우가 많다. 그렇지만 수학을 공부하지 않은 지원자가 오더라도 겁먹을 필요는 없다. 학사 수준이든 그 이상이든, 지원자가 걸어온 학업 과정에 통계에 집중하려 한 흔적이 보인다면 그는 충분히 데이터 과학자로서의 역할을 해낼 수 있는 인재다.

2. 훌륭한 데이터 과학자는 통찰력 있는 질문을 던진다
빅데이터가 매력적인 이유 중 하나는 거대하고 (대부분) 비구조화 된 데이터 더미 속에서 명확하고 실행 가능한 결론을 내릴 수 있다는 것이다. 전체 문맥 속에서 어떤 쿼리(query)를 질의해야 할 지, 알고자 하는 데이터가 어떤 것이며 그 중에 알기 어려운 데이터는 무엇인지 등을 모르는 상태에서 그저 특정 정보만을 찾기 위한 쿼리만 질문하는 것은 부족하다.

그렇다. 훌륭한 데이터 과학자는 쿼리를 질의하고 데이터베이스를 훑기만 하는 것이 아니다. 이들은 단순히 누군가가 이미 던진 질문에 대한 정해진 답을 찾는 것뿐 아니라 아직 아무도 던지지 않은 질문에 대한 새로운 통찰력을 가져다 줄 수 있도록 쿼리를 설계하고 제안한다.

이런 자질은 면접으로 알아내기 힘든 소프트스킬(soft skill)이라 생각할 지도 모르지만, 구체적인 상황을 설정해 이를 면접에서 시나리오로 제시하고 어떻게 해결할 지를 물어보면 지원자의 사고 프로세스, 문제 접근 방식, 문제의 답을 이끌어내는 방법, 그리고 기존의 쿼리에 부가적인 가치를 더할 수 있는 문제 제기 능력 등을 알아볼 수 있다. 면접 시 지원자들에게 ‘틀에서 벗어난 사고’가 중요함을 강조하고, 제시된 문제에만 제한된 답변을 하는 것은 바람직하지 못함을 미리 알려주자.

3. 좋은 데이터 과학자는 데이터베이스 설계와 실행에 능숙하다
오늘날 데이터 과학자들은 (앞서 얘기했듯) 탐구적인 대학 연구원의 자세와 소프트웨어 개발자 및 엔지니어의 자세 사이에서 균형을 잘 맞출 수 있어야 한다. 즉 실험실을 알맞게 설정하고 실험에 필요한 기계를 잘 다룰 수 있어야 한다는 것이다.

‘빅데이터’라는 카테고리에 해당되는 데이터 대부분이 비정형 데이터이긴 하지만, 관계형 데이터베이스와 컬럼-지향 데이터베이스(columnar database) 모두에 대한 근본적 이해가 있어야 데이터 과학자로서의 업무를 잘 해낼 수 있다.

많은 기업 데이터 웨어하우스들은 전통적인 로-지향 관계형 데이터베이스(row-based relational database)를 채택하고 있다. 빅데이터 자체는 얼마 안 된 개념이지만, 대부분의 실행 가능한 데이터 및 트렌드는 기존의 데이터베이스 형태로부터 도출되는 것이다.

데이터 과학자는 또한 애널리틱스와 운영 데이터베이스(production database)를 통해 신기술을 이용하는 데도 중요한 역할을 한다. 데이터베이스를 토대로 일해 본 경험 덕분에 새로운 시스템을 설계하는 데 많은 도움을 얻을 수 있는 것이다.

덧붙여, 많은 빅데이터 소프트웨어 개발자들이 제품 개발에 있어 SQL과 같은 언어를 사용하려 한다. 맵리듀스(MapReduce)식 언어를 배울 생각이 전혀 없는 기존 데이터베이스 관리자들에게 맞춰주기 위해서다. 즉 데이터 과학자가 전통적 SQL 언어를 알고 있으면 다른 데이터베이스 전문 직원들과 협력이 쉬워진다는 장점이 있다.

4. 훌륭한 데이터 과학자는 스크립팅 언어에 대한 기본적 이해를 지니고 있다
파이썬(Python) 프로그래밍 언어를 어느 정도라도 알고 있는 지원자라면 가산점을 줘도 좋을 것이다. 방대한 양의 비구조적 데이터 속에서 스크립트로 쿼리를 질의하게 되는데 여기에는 시간이 걸릴 수 있다.

파이썬은 컬럼-지향 데이터베이스 작업, 맵리듀스-스타일 쿼리 및 기타 데이터 과학자가 직면하게 되는 많은 문제들에 있어 가장 겸용이 가능하고, 다목적으로 쓰일 수 있는 스크립팅 언어로 인정받고 있다. 파이썬은 비교적 읽고 사용하기 쉬운 오픈소스 언어이므로 데이터 과학자 지원자들에게 커다란 문제가 되지 않을 것이다.

“의사 코드(pseudo code)” 기술도 고려해 볼만 하다. 알고리즘이나 쿼리가 어떤 식으로 작동할 지 순수하게 우리말로 설명할 수 있는지 보는 것이다. 이런 과제를 줌으로써 지원자의 사고 수준과 문제 해결 방식을 파악할 수 있음은 물론 지원자가 해당 언어에 대한 지식이 없는 상태에서도 어떤 식으로 그런 문제를 해결할 것인지 알 수 있다.

데이터 과학자에게 합당한 연봉을 지불하라
데이터 과학자에 대한 수요가 증가하는 반면 합당한 지원자의 수는 그에 미치지 못함에 따라 데이터 과학자의 임금도 오르고 있다. 미국 내 대부분 메이저 시장에서 데이터 과학자들은 수십만 달러급 연봉을 받고 있다. 이는 서부와 같은 고비용 시장보다도 훨씬 높은 연봉이다. 특히 실리콘 밸리에서는 자격을 갖춘 데이터 과학자들에게 여러 기업이 한꺼번에 손을 내미는 경우도 적지 않다.

따라서 데이터 과학자를 뽑을 때는 시장에 형성되어 있는 연봉보다 낮은 금액을 제시하지 않는 것이 좋다. 심지어 스타트업 기업들도 별볼 일 없는 자리에 형편 없는 임금을 주던 기존의 관행에서 벗어나 데이터 과학자들에게는 충분한 연봉과 함께 신제품 개발에 참여할 기회를 주고 있다. 세상에 공짜는 없는 법이다. ciokr@idg.co.kr


X