Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

데이터과학자

“데이터 접근성과 활용성을 높여라” AI/ML을 위한 통합 데이터 플랫폼 전략 - Tech Summary

데이터의 가치가 나날이 높아지고 있다. AI/ML, 분석 같은 데이터 집약적인 워크로드가 빠르게 늘고 있기 때문이다. 하지만 이처럼 중요한 데이터 활용에 많은 조직이 어려움을 겪고 있다. 데이터 세트는 빠른 속도로 확장되고 있고, 이들 데이터는 파일, 객체, 스트림, 데이터베이스 등 여러 위치에 저장된다.  문제는 이들 데이터를 데이터 엔지니어, 데이터 분석가, 데이터 과학자가 접근해 활용하는 것이 점점 복잡해지고 있다는 것이다. 데이터를 다루는 전문가들이 더 생산적이고 효율적으로 작업을 하는 유일한 해결책은 통합 분석 플랫폼을 구축하는 것이다. 너무 많은 도구와 절차로 인한 복잡성의 문제에 직면한 기업들의 고충과 이를 통합 분석 플랫폼이 어떻게 해소할 수 있는지 HPE 에즈메랄 통합 분석 플랫폼을 통해 살펴보자.  주요 내용 - 데이터 접근과 활용에 대한 도전 과제 - 복잡성을 해결하는 4가지 원칙 - 4대 원칙에 충실한 통합 분석 플랫폼 - 데이터 패브릭 기반의 글로벌 데이터 통합 - 더 큰 자유와 선택

데이터과학자 엔지니어 에즈메랄 2022.03.29

“진화하는 데이터를 추적한다” 데이터 계보의 이해와 중요성

데이터베이스는 데이터를 삽입, 업데이트, 쿼리, 삭제하고 데이터의 현재 상태를 나타내는 데 효과적이다. API가 현재 트랜잭션을 수행하고 애플리케이션이 정확한 레코드를 불러올 수 있도록 하기 위해 개발자는 데이터 일관성에 의존한다. 개발자 외에 데이터를 사용하는 역할로는 머신러닝 모델을 개발하는 데이터 과학자, 데이터 시각화를 생성하는 시민 데이터 과학자 등이 있다.    SQL 또는 NoSQL 데이터베이스에서 이틀 전 상태의 데이터를 쿼리한다면 데이터베이스 스냅샷 또는 해당데이터베이스의 독점 기능에 의존해야 할 수 있다. 스냅샷과 백업은 오래된 데이터 집합을 비교하는 개발자나 데이터 과학자에게는 충분할 수 있지만, 데이터가 어떻게 변경되었는지를 추적하기 위한 툴로는 충분하지 않다.  사용자와 시스템이 데이터를 어떻게 수정하는지 더 자세히 알아야 할 이유는 많다. 다음과 같은 질문에 답할 수 있는 역량을 갖추는 것이 중요하다.    데이터를 변경한 사용자 또는 비즈니스 프로세스는 무엇인가?  변경을 수행한 툴 또는 기술은 무엇인가?  데이터가 어떻게 변경되었는가? 알고리즘, 데이터 흐름, API 호출에 의해서인가 아니면 사람이 양식에 데이터를 입력한 결과로 변경되었는가?   레코드, 문서, 노드, 필드 또는 속성이 어떻게 변경되었는가?  변경이 수행된 시점은 언제이며, 사람이 변경했다면 변경 당시 지리적으로 어디에 위치해 있었는가?  변경이 발생한 이유는 무엇인가? 어떤 맥락에서 이루어졌는가?    데이터 계보의 이해  데이터 계보(Data Lineage)는 데이터의 라이프사이클을 노출하고 데이터가 누구에 의해, 언제, 왜, 어떻게 변경되었는지에 관한 질문에 답하는 데 도움이 되는 방법론과 툴로 구성된다. 메타데이터 관리 내의 한 분야이며, 데이터 소비자가 의사 결정 및 기타 비즈니스 목적으로 현재 활용 중인 데이터의 컨텍스...

데이터계보 규제 일관성 2021.04.07

"데이터 과학자, 여전히 업무 시간 절반을 데이터 정리에 쓴다"

데이터 과학 분야에서 데이터 과학자와 소프트웨어 엔지니어가 겪고 있는 가장 큰 어려움은 무엇일까. 최신 조사에 따르면, 고된 데이터 수집과 정제 작업과 편견을 가진 모델의 문제, 데이터 프라이버시, 경험과 기술을 가진 전문가 채용의 어려움 등인 것으로 나타났다.   과학용 컴퓨팅 애플리케이션의 파이썬 배포판 제작 업체 아나콘다(Anaconda)의 '2020 데이터 사이언스 현황 조사(2020 State Of Data Science)' 내용이다. 이번 설문에는 전 세계 100개국 2,360명이 참여했고 이 중 절반 정도가 미국의 개발자였다. 조사 결과를 보면 최근 데이터 과학 환경이 많이 개선됐음에도 불구하고, 데이터 관련 소모적인 작업이 여전히 데이터 과학자 업무의 주요 부분을 차지하는 것으로 나타났다. 응답자들은 데이터 로딩과 클린징 작업에 각각 업무 시간의 19%와 26%를 사용한다고 답했다. 전체 업무 시간의 절반에 해당한다. 이 밖에 모델 선택과 학습, 배포에 각각 11% 정도로 총 34%를 쓰고 있는 것으로 나타났다. 데이터 과학 실무 관련해서 가장 큰 어려움은 기업의 IT 보안 규정을 준수하는 것이었다. 데이터 과학자와 개발자, 시스템 관리자의 대답이 모두 비슷했다. 이는 주로 새로운 앱을 대규모로 배포하는 것과 관련이 있다. 그러나 머신러닝과 데이터 과학 앱의 수명주기를 고려하면 보안 취약점을 패치하면서 다양한 오픈소스 애플리케이션 스택을 유지하는 것 등 내부적인 문제로 이어진다. 설문 결과 확인된 또 다른 문제는 기업에서 필요로 하는 기술과 교육기관에서 가르치는 기술 간의 차이다. 대학 대부분이 통계와 머신러닝 이론, 파이썬 프로그래밍 수업을 제공하고 학생 대부분도 이런 과정을 듣는다. 그러나 기업이 가장 필요로 하는 데이터 관리 기술은 대학에서 거의 가르치지 않는다. 고급 수학 지식도 필요한 데 학생들이 종종 간과하곤 한다. 한편 학생들은 스스로 경험 부족(40%)과 기술적 능력(26%)이 부족하다고 느끼고 이를 취업 시 가...

데이터과학자 데이터사이언티스트 2020.07.01

데이터 애널리스트, '역할과 책임, 그리고 연봉은"

데이터 애널리스트는 소속 조직이 더 나은 비즈니스 의사결정을 내리는 데 도움이 되도록 데이터를 처리하는 일을 한다. 컴퓨터 프로그래밍, 수학, 통계 등 여러 분야의 기법들을 활용, 데이터를 분석 및 처리해 비즈니스 활동을 설명하고, 예측하고, 성과를 개선할 수 있는 결론을 도출한다. 모든 분석팀에서 핵심적인 역할을 하며, 수학 및 통계 분석에 정통한 제너럴리스트가 많다.   데이터 애널리스트에 대한 수요 증가 기업과 기관의 분석 역량에 대한 관심이 빠른 속도로 급증하면서, 데이터 애널리스트를 찾는 수요가 아주 많다. 지난 4월, IDC는 올해 빅데이터 및 비즈니스 애널리틱스 솔루션 매출 규모가 1,891억 달러에 도달할 예정이며, 2022년까지 2자리 수의 성장세를 유지할 것으로 내다봤다. 가트너의 저명한 VP 애널리스트인 리타 살람은 “비즈니스와 기술 변화 속도가 유례없이 빠르다. 특히 분석 분야가 그렇다. 조직은 디지털 트랜스포메이션을 추진하고 있고, 제품을 포함해 모든 비즈니스 영역에 디지털 프로세스를 추가하고 있다. 그러면서 데이터와 분석이 갈수록 중요해지고 있다”라고 설명했다. 기업은 지난 몇 년간 데이터 과학, 머신러닝, 인공지능에 초점을 맞췄다. 그러나 컨설팅업체 카루터스 앤 잭슨(Carruthers and Jackson)의 책임자이자, 과거 네트워크 레일(Network Rail)의 최고 데이터 책임자를 지냈고, ‘최고 데이터 책임자의 플레이북(The Chief Data Officer's Playbook)’과 ‘데이터 기반 비즈니스 트랜스포메이션: 파괴와 혁신,경쟁에서 이기는 방법(Data-Driven Business Transformation: How to Disrupt, Innovate and Stay Ahead of the Competition)’이라는 책을 공동 저술한 캐롤라인 카루터스는 중심이 분석으로 다시 이동하고 있다고 주장했다. 카루터스는 “많은 사람이 머신러닝과 AI에 열광하고, 여기에 초점을 맞추면서 분석에 ...

분석 연봉 빅데이터 2019.09.30

미국 내 데이터 과학과 머신러닝의 초고속 성장 원동력 4가지

소셜 네트워킹 웹사이트 링크드인은 웹사이트 데이터에 기반해 미국 내에서 가장 빠르게 성장하고 있는 직군을 조명한 보고서를 발행했다. 링크드인은 이 보고서에서 2012년과 2017년 데이터를 비교하고 있다. 지난 5년간 9.8배의 성장률을 보인 머신러닝이 1위를, 2012년 이후 6.5배의 성장률을 보인 데이터 과학자가 2위를 차지했다. 상위 10개 직군 중 4개는 데이터 과학과 관련된 분야였으며, 이들 4 직종 중 3종이 상위 5위 안에 들어갔다. 그렇다면 데이터 과학 관련 직군, 특히 머신러닝과 관련한 직군이 이처럼 빠르게 성장하는 이유는 무엇일까? 물론 그 전에도 데이터 과학 분야의 빠른 성장률을 지적하는 보고서는 꾸준히 있어 왔지만, 링크드인 보고서가 특별한 이유는 이들 직군의 엄청난 성장률을 뚜렷이 보여주었기 때문이다. 머신러닝과 데이터 과학 분야의 빠른 성장 뒤에 숨은 원동력 4가지를 살펴 보자. 기하급수적으로 증가한 데이터 양 전체 데이터의 90% 이상이 지난 2년 동안 생성된 것이다. 뿐만 아니라 오늘날 하루 데이터 생성량은 무려 2.5퀸틸리언(quintillion) 바이트에 달한다. 이 숫자가 무엇을 의미하는지 궁금한 독자들을 위해, 데이터 업체 도모(Domo)가 보다 쉽게 풀어 쓴 설명을 읽어 보자. - 미국인들은 1분에 265만 7,700GB의 데이터를 사용한다. - 인스타그램 유저들은 1분에 4만 6,750개의 사진을 포스팅 한다. - 1분에 1,522만 700 개의 문자 메시지가 전송된다. - 구글은 1분에 36만 7,080 건의 검색을 진행한다. 이런 활동을 할 때마다 데이터가 생성되므로 오늘날 존재하는 데이터의 양은 우리의 상상을 초월한다. 이처럼 차고 넘치는 데이터의 홍수 속에서, 어떻게든 데이터를 활용하려는 기업이 관련 기술을 가진 전문가를 찾는 건 당연한 일이다. 예컨대 인스타그램은 매 분마다 포스팅 되는 4만 6,750 개의 사진 중에서 가장 많이 공유되는 사진이 어떤 것인지 알고 싶을 것이다. 어떤...

데이터과학자 머신러닝 데이터과학 2018.03.08

효과적인 일류 분석팀을 구성하는 방법

데이터를 효과적으로 분석하는 능력이 기업의 경쟁 차별화 요소가 된 시대다. 기업에 고객 선호도, 제품 개발 및 사용과 관련된 트렌드, 경쟁업체는 인식하지 못하는 '시장 변동(Market Gyration)'에 대한 날카로운 인사이트를 제공하기 때문이다. 기업이 분석에서 최대한의 성과를 일궈내려면, 여러 소스에서 유입되는 데이터를 이해하고, 이를 분석해 기업에 가치를 창출시키는 인재들로 구성된 팀을 구성해야 한다. 그렇다면 어떤 방법으로 일류 분석팀을 구성할 수 있을까? 이번 글에서 전문가들이 추천하는 베스트 프랙티스 중 일부를 소개한다. 필요한 전문성을 지닌 인재를 적절히 조합한다 컨설팅 업체인 웨스트 몬로(West Monroe)의 고급 분석 수석 관리자 댄 마제스트로에 따르면, 넓게 봤을 때 분석팀이 높은 성과를 성취하기 위해서는 ▲팀을 견인하는 기술적 데이터 스킬(능력, 역량, 전문성), ▲분석 업무를 견인하는 분석 스킬, ▲올바른 방향으로 업무를 추진해 비즈니스 가치 창출에 도움을 주도록 만드는 비즈니스 스킬이라는 3가지 기본적인 스킬이 필요하다. 마제스트로는 "이런 스킬을 모두 갖춘 사람은 극소수에 불과하다. 솔직히 말해 이런 인재는 전설 속 동물인 '유니콘'이나 다름없다. 하지만 이 3가지 스킬 가운데 하나를 갖춘 인재들로 팀을 구성하는 것이 더 효과적일 수 있다"고 말했다. 기술적 데이터 스킬은 데이터를 체계화 하는 방법을 이해하는 인재들이 제공할 수 있다. 마제스트로는 "기존 IT 분야 종사자 중에 이런 인재가 많을 것이다. 분석팀에 이런 인재들을 일부 포함시키면 팀 성공에 도움이 된다"고 말했다. 데이터 과학자는 분석팀에 "과학"이라는 유효성(타당성)을 가져온다. 마제스트로는 "데이터 과학자의 하드 스킬이 아주 중요하다. 또한 문제 해결 스킬과 논리적이면서 비판적인 사고를 하는 스킬도 아주 중요하다. 특정 플랫폼에 대한 ...

데이터과학자 분석팀 2017.12.22

분석으로 가는 길 "우리 회사는 어디쯤?"

많은 데이터 공학자와 IT가 거치는 분석 여정에는 문제와 눈에 보이지 않는 반환점이 넘쳐난다. 모델을 위한 데이터를 캡처하는 것부터 분석을 생성하는 것까지 항상 새로운 것을 기대할 수 있다. 이번 기사에서는 분석 여정을 처음부터 끝까지 설명하고 그 과정에서 작업을 좀 더 용이하게 할 수 있는 몇 가지 우수 사례를 제시하고자 한다. 1단계: 문제 정의 분석 여정의 첫 단계는 해결하고자 하는 문제를 정의하는 것이다. 우선 조직이 직면하고 있는 어려움과 이 문제를 해결하는 방법을 파악해야 한다. 이 첫 단계를 해결하면 나머지 여정이 결정된다. 어려움과 가능한 해결책을 파악한 후에는 다음의 2가지 질문에 대한 답을 구할 수 있다. "조직에 필요한 모델의 종류는 무엇인가?" 그리고 "모델을 구축할 것인가 구매할 것인가?" 필요한 모델의 종류에 따라 다음 단계 내에서 취할 경로가 결정된다. 기본 모델이 필요한지 아니면 사용자 정의 모델이 필요한지 파악해야 한다. 그리고 원하는 모델을 결정한 후에는 구축 또는 구매 여부를 결정할 수 있다. 관련된 이점과 위험 때문에 회사를 위한 모델 구매 및 구축 시기를 파악하는 것이 매우 중요한 결정 요인이 된다. 모델을 구매하기로 선택한 경우 분석 여정의 끝이 가까워진다(노력 부분만 그럴 뿐 기다림은 끝나지 않는다). 하지만 자체 모델을 구축하기로 결정한 경우 여정의 상당 부분을 내부적으로 처리하게 된다. 2단계: 데이터 수집 모델 구축을 결정한 후에는 스스로 "적절한 데이터가 충분한가? 그렇다면 어떻게 정리할 수 있을까?"를 질문해야 한다. 모델을 위한 데이터를 수집할 때는 새로운 데이터를 수집하거나 기존 데이터를 분류할 수 있다.  새로운 데이터를 수집하기로 결정한 경우, 데이터를 유용한 데이터 콜렉션으로 정리해야 한다. 이를 통해 특정 코드를 찾을 수 있기 때문에 이후의 여정에 도움이 된다.  대부분의 데이터 ...

분석 데이터과학자 2017.12.20

8020 데이터 과학자의 딜레마

클라우드의 등장으로 데이터가 폭증하면서 데이터 과학자에 대한 수요도 급격히 늘었다. 데이터 과학자는 10년 전에는 존재하지도 않았던 직업이지만 글래스도어(Glassdoor)가 연봉과 직업 만족도, 구인 공고 수를 기반으로 선정하는 미국 최고 직업 순위에서 2년 연속 1위 자리를 차지했다. 심지어 하버드 비즈니스 리뷰(Harvard Business Review)는 데이터 과학자를 "21세기 가장 섹시한 직업"으로 선정했다. Credit: Getty Images Bank 인구는 늘고 있지만 데이터 과학자를 찾기는 매우 어렵다. 최근 연구에 따르면, 데이터 과학자와 분석가의 수요는 2020년까지 28% 증가할 전망이다. 현재 시장에서 가장 수요가 많은 직종이다. 링크드인에 따르면, 8월 말 기준으로 미국에서 채용 중인 데이터 과학자 일자리 수는 1만 1,000개 이상이다. 특별한 변화가 없다면 이 격차는 앞으로 계속 벌어질 것이다. 상황이 이러하니 데이터 과학자가 더 효율적으로 업무를 수행하도록 돕는 것이 최우선 과제다. 그러나 대부분의 데이터 과학자가 실제 데이터 분석에 보내는 시간은 전체 업무 시간의 20%에 불과하다. 데이터 과학자를 채용한 이유는 알고리즘을 개발하고 머신러닝 모델을 구축하는 데 있다. 또한 데이터 과학자도 일반적으로 자신의 업무에서 이 부분을 가장 즐긴다. 그러나 현재 대부분의 기업에서 데이터 과학자의 귀중한 시간 가운데 80%는 방대한 양의 데이터를 찾고 정제하고 재편성하는 단조로운 작업에 소요된다. 적절한 클라우드 툴 없이 이 상황을 타개하기란 불가능하다. 데이터 과학자, 힘든 작업의 연속 클라우드에 연결된 기기와 시스템을 통해 들어오는 다양한 데이터 스트림을 처리하고 그 의미를 파악할 때 데이터 과학자는 데이터 스토리지 리포지토리, 이른바 데이터 호수 내의 관련 데이터 집합을 파악해야 한다. 이는 결코 간단한 일이 아니다. 많은 조직의 데이터 호수는 현실적으로 쓰레기 매립장...

데이터과학자 데이터과학 2017.09.29

“더 쉽고 가까워진” 머신 러닝을 시작하는 소프트웨어 엔지니어를 위한 조언

오래 전인 1950년대 중반, 로버트 하인라인은 유능한 기계 엔지니어가 패턴 매칭 메모리와 “판단을 추가하기 위한” 몇 가지 측면 회로를 만들기 위해 “토르센 튜브(Thorsen Tubes)”를 연결한다는 “여름으로 가는 문”이란 제목의 작품을 썼으며 지능형 로봇이라는 하나의 산업 분야를 창조해냈다. 그는 이야기를 좀 더 그럴듯하게 만들기 위해, 미래를 잘 설정해 놓았다. 1970년이라는 미래다. 이 로봇들은 시연된 접시 닦기 같은 임무를 완벽하게 복제했다. 굳이 말할 필요는 없겠지만, 20년 후 현실은 그렇게 되지 않았다. 1956년에는 타당한 것처럼 보였지만, 1969년이 되자 1970년에는 로봇이라는 미래가 오지 않으리라는 것이 확실해졌다. 그리고 얼마 뒤인 1980년이나 1990년 또는 2000년이 되어도 그런 미래가 오지 않으리라는 것이 확실해졌다. 10년마다, 평범한 엔지니어가 인공 지능(Artificial Intelligence) 머신을 구축할 능력이 최소한 지나간 시간만큼이나 빠르게 후퇴하는 것처럼 보인다. 기술이 진보함에 따라, 어려운 사항들이 한 꺼풀씩 드러남에 따라, 이 문제가 엄청나게 어려운 문제라는 점이 더욱 명확해지고 있다. 머신 러닝이 중요한 문제들을 해결하지 않고 있었다는 것이 아니다, 해결하고 있었다. 예를 들면, 90년대 중반에도 모든 신용 카드 거래가 금융사기 여부를 판단하기 위해 신경망을 이용해서 스캔되고 있었다. 90년대 후반 구글은 검색을 개선하기 위해 웹에서 고급 신호를 분석하고 있었다. 그렇지만 일반적인 엔지니어는 박사학위를 받기 위해 학교로 돌아가거나 똑같은 일을 할 수 있는 생각이 비슷한 친구를 여럿 찾기 전에는 그런 시스템을 구축할 수 있는 기회를 얻지 못했다. 머신 러닝은 어려웠으며, 각각의 새로운 영역은 많은 신기원을 필요로 했다. 최고의 연구원들조차도 현실 세계에서는 이미지 인식 같은 어려운 문제를 깰 수 없었다. 비로소 상황이...

인공지능 데이터과학자 개발자 2017.09.15

"최고의 직업 1위"…데이터 과학자의 역할과 되는 방법

데이터 과학자가 되는 경로는 업종에 따라 다르다. 그럼에도 불구하고 공통적으로 요구되는 역량과 경력, 학위 등이 있다. 여기 데이터 과학자 커리어를 시작하는데 필요한 정보를 정리했다. 데이터 과학자란 무엇일까 데이터 과학자(데이터 사이언티스트)는 수많은 구조화, 비구조화 데이터에서 특정 비즈니스 요구 성과나 목표를 달성하는 데 도움을 주는 인사이트를 발견해야 하는 책임을 갖고 있다. 데이터 분석 분야에서 데이터 과학자의 역할이 점차 더 중요해지고 있다. 기업들이 빅데이터 및 데이터 분석을 더 많이 활용해 의사 결정을 내리고, 클라우드 기술과 자동화, 머신러닝을 IT 전략의 핵심 구성 요소로 활용하는 기업들이 증가하는 추세이기 때문이다. 데이터 과학자의 주요 임무는 수많은 데이터를 체계화하고 분석하는 것이다. 이를 위해 전용 소프트웨어를 사용하는 경우가 많다. 데이터 과학자가 데이터 분석을 한 최종 결과물을 모든 이해 당사자가 알기 쉽게 만들수 있어야 한다. 특히 IT 외부의 관계자가 이를 이해하는 것이 중요하다. 데이터 과학자가 데이터 분석에 접근하는 방법은 소속 산업, 비즈니스 요구(필요 사항), 소속 부서에 따라 달라진다. 비즈니스 부문 리더, 부서, 매니저는 찾고자 하는 것을 미리 알려줘야 한다. 그래야 데이터 과학자가 구조화, 비구조화 데이터에서 '의미'를 찾을 수 있다. 데이터 과학자는 기업이나 부서의 목표를 예측 엔진, 패턴 감지 분석, 최적화 알고리즘 등 데이터 기반 결과물로 전환시킬 수 있는 비즈니스 전문성을 갖추고 있어야 한다. 데이터 과학자의 연봉 2016년 미국 노동 통계청(BLS)은 데이터 과학자의 평균 연봉이 약 11만 8,000달러(약 1억 3,300만 원)라고 발표했다. 급성장하는 동시에 보수도 좋은 직종이다. BLS는 이 분야의 일자리가 2024년까지 11% 증가할 것으로 내다봤다. 데이터 과학자 직종은 만족도 높은 장기 커리어 경로로 자리를 잡아가고 있다. 글래스도어의 '...

데이터과학자 데이터사이언티스트 2017.08.25

최고 수준 데이터 과학자의 다섯 가지 특징

데이터 과학자에 대한 수요가 많고, 앞으로 몇 년 동안은 관련 인력이 계속 부족할 것으로 보인다. IBM의 연구에 따르면, 2020년까지 미국 내 모든 데이터 전문가 관련 연간 구인 건수는 36만 건에서 272만 건으로 증가할 전망이다. 게다가 데이터 과학자와 데이터 개발자, 데이터 엔지니어 등 새로운 역할에 대한 수요는 더 빨리 증가해 2020년까지 약 70만 개의 빈 일자리가 생길 것으로 전망된다. 많은 기업이 비즈니스의 기술적 요구를 만족할 수 있는 검증된 후보자를 찾고 있다. 하지만 특정 인물이 기술적으로 해당 범주에 맞는다고 해서 반드시 최고의 팀원이 된다는 보장은 없다. 이 때문에 HR 책임자는 데이터 과학자를 뽑을 때 다른 특징도 함께 살펴봐야 한다. 데이터 과학자를 채용하는 데는 적지 않은 시간이 걸리지만, 적임자를 찾는 데 시간을 쏟을 만한 가치가 있다. HR 책임자가 데이터 과학자를 채용할 때 반드시 살펴봐야 하는 특징 다섯 가지를 소개한다. 1. 분석 기술/양적 추론 소프트웨어 업체 SAS는 데이터 과학자들을 대상으로 좋은 데이터 과학자를 만드는 것이 무엇인지 설문조사를 했다. 가장 두드러진 점은 강력한 논리 및 분석 기술이다. 설문 참가자 중 41%가 이런 특징을 가지고 있다고 응답했다. 데이터 과학자는 기술 편향적이어야 한다. 즉 감정이나 직감이 아니라 데이터를 기반으로 한 주장을 고수해야 한다. 또한, 데이터 과학자는 분명하게 말하고 개념을 쉽게 이해할 수 있도록 설명할 수 있어야 하는데, 다른 팀원들은 기술적인 지식이 부족한 경우가 많기 때문이다, 2. 스토리텔링 역량 데이터 과학자는 데이터를 분해하고 분석할 뿐만 아니라 다른 팀원에게 데이터를 설명해야만 한다. 제대로 된 데이터 과학자라면, 데이터를 조사하고 반드시 스토리를 이야기해야 한다. 데이터를 어떻게 모았으며, 결과를 어떻게 분석했고, 미래에 어떤 일이 일어날지 설명해야 한다. 팀원들에게 데이터 스토리를 효과적으로 이야기할 수 있는 데이터 ...

빅데이터 데이터과학자 채용 2017.08.17

빅데이터 분석 전략을 여는 6개의 열쇠

 빅데이터에서 필요한 것이 무엇인지, 그리고 그것을 얻기 위해서는 어떻게 해야 하는지를 전문가가 알려줍니다. 대부분의 조직에 있는 비즈니스와 기술 리더들은 빅데이터 분석의 능력을 잘 알고 있습니다. 그렇지만, 자신들이 원하는 방식으로 그런 능력을 활용할 수 있는 리더는 소수에 불과합니다. 과제가 복잡한 만큼, 기술 역시 복잡할 수밖에 없습니다. 핵심 원리를 이해하고 거기에 투자하는 것이 조직에서 넘쳐나고 있는 정보의 바다를 이용할 수 있는 올바른 방법을 찾기 위해 이런 복잡성을 처리하는데 도움이 될 것입니다. 새로운 HPE(Hewlett Packard Enterprise) 백서는 빅데이터 분석 플랫폼을 제대로 확보하기 위해 필요한 6가지 주요 요소를 분류합니다. 이 백서가 주는 통찰력에 대해서 논의하고 어떻게 하면 기업들이 빅데이터를 제대로 확보할 수 있는지를 설명해 달라고 전 세계적으로 잘 알려진 HPE의 팀 리더인 폴 카트론에게 요청해보았습니다. 1. 엄청난 속도 데이터에 대한 기대치는 전에 없이 높습니다. 비즈니스 사용자들 그리고 고객들은 거의 즉각적인 결과를 요구하고 있지만, 이런 기대치를 충족시키기는 매우 어려우며, 레거시 시스템을 사용해서는 더욱 어렵습니다. 비 데이터 분석 전략을 구현함에 있어서 속도가 유일한 요인은 아니지만, 가장 높은 우선순위를 갖고 있다고 카트론은 말했습니다. 그는 10테라바이트의 데이터 세트에 대해 쿼리를 실행해야 하는 한 고객을 떠올렸습니다. “기존 솔루션을 가지고는 그 쿼리에 답을 낼 때까지 48시간이 걸렸을 것”이라고 단언했습니다. “그리고 48시간이 지난 후에는 조처할 시간이 지나버렸기 때문에 그 질문 자체를 고려할 가치가 거의 없게 되었습니다.”라고 말했습니다. 새로운 분석 플랫폼으로의 이동에 있어서 통찰력에 대한 시간에 우선순위를 부여함으로써, 이 회사는 곧바로 48 시간을 5분으로 단축했다고 카트론이 말했습니다. 새로운 솔루션이 충분...

분석 하둡 빅데이터 2017.07.04

데이터 사이언스 볼, 암 탐지 알고리듬을 만들기 위해 경쟁하는 데이터 과학자 대회

데이터 과학자들은 머신러닝을 사용해 폐암을 탐지하고 있다. 지난 1월부터 전세계 약 1만 명의 데이터 과학자들이 데이터 사이언스 볼(Data Science Bowl) 대회에서 의료 전문가들이 폐암을 좀더 빨리 탐지할 수 있도록 도와주는 효과적인 알고리듬을 개발하는데 경쟁해왔다. 2010년 NLST(National Lung Screening Trial)는 사람들이 저조도 CT(computed tomography)를 통해 매년 검진을 받는다면 폐암으로 인한 사망자 20%를 줄일 수 있다는 것을 보여줬다. 하지만 조기 탐지를 위한 돌파구를 마련한 이 기술은 전통적인 X레이 이미지와 비교했을 때 오탐지율이 상대적으로 높다. NCI의 고해상도 폐 영상, Credit: NATIONAL CANCER INSTITUTE 머신러닝업체인 캐글(Kaggle) CEO 앤서니 골드블룸은 부즈 앨런 해밀턴(Booz Allen Hamilton)이 매년 주최하는 데이터 사이언스 볼(Data Science Bowl)에서 "이런 강력한 접근 방법으로 20% 이상의 암 사망율을 낮췄지만, 오진율이 매우 높다"며, "수많은 사람이 자신이 암에 걸렸다는 말을 듣고 이후에 암이 아니라는 얘길듣는다. 이는 당사자에게 엄청난 스트레스를 가하는 것이다"고 말했다. 그래서 올해 데이터 사이언스 볼에서 부즈 앨런과 캐글은 오진율 문제를 해결하기 위해 데이터 과학과 머신러닝의 힘을 빌리기로 결정했다. 양사는 로라 앤 존 아놀드 재단(Laura and John Arnold Foundation)에서 100만 달러의 상금을 확보해 이 대회를 톱 10 콘테스트에 등록시켰다. 사회적 공익을 위한 데이터 과학 부즈 앨런의 수석 데이터 과학자이자 수석 부사장 조쉬 설리반은 "부즈 앨런과 캐글은 2015년 데이터 과학자를 사회적 공익에 초점을 맞추기 위해 데이터 사이언스 볼을 만들었다"고 말했다. 설리반은 "우리는 자사의 이...

데이터과학자 데이터과학 NCI 2017.05.08

"데이터 과학자의 마음을 잡기 위한" 파이썬과 R의 경쟁 분석

상사의 상사가 서버실을 둘러보고 수 페타바이트에 이르는 데이터를 살펴본다. 결론은 하나다. 이 잡음 속에 분명 신호가 있다. 이 숫자로 이뤄진 세계에는 지적 생명체가 분명히 존재한다. 숫자로 채워지는 이 하드 디스크에서 수익을 창출할 전략이 분명히 있다. 이 작업이 자신에게 떨어져, 지금부터 거대한 디지털 잡동사니통을 뒤지고 뒤져 유용한 뭔가를 찾아 상사에게 보고해야 한다. 어떻게 할까? 개발자라면 선택지는 R과 파이썬(Python), 두 가지다. 데이터 크런칭을 위한 솔루션은 많고 이들은 비즈니스 인텔리전스나 데이터 시각화라는 그럴듯한 이름으로 포장된다. 어떤 솔루션이 원하는 기능을 한다면 해당 솔루션을 선택하면 된다. 그러나 솔루션이 해주지 않는, 다른 작업을 하려면 결국 코드를 직접 쓰는 수밖에 없다. 데이터가 깨끗하게 준비되어 있다면 포괄적인 서비스 툴을 사용하면 되지만, 이런 툴은 모든 부분이 완벽하지 않을 경우 문제를 일으키거나 삼킨 데이터를 제대로 소화하지 못하는 문제가 있다. 파이썬과 R의 차이는 대부분 사고방식 측면에 있다. 하나는 유닉스 스크립터들이 개발해 통계학자, 빅데이터 전문가와 소셜 과학자들 사이에서 자리잡은 포괄적인 서비스 언어다. 다른 하나는 통계학자, 빅데이터 전문가와 소셜 과학자들이 설계하고 만든 데이터 분석용 툴이다. 사용하는 계층은 거의 똑같지만 접근 방식은 전혀 다르다. 하나는 유용한 라이브러리가 많은 범용 툴이고 다른 하나는 빅데이터 분석 전용으로 만들어졌다. 무엇을 선택해야 할까? 이런 결정을 하기 위해 두 언어를 비교해 보자. 파이썬을 사용하면 전처리가 쉽다 데이터 분석의 50%는 분석에 앞서 데이터를 정리하는 일이라는 말이 있다. 심지어 그 비중이 99%라는 사람도 있다. 정확한 수치야 어떻든 필요할 때 임의적 작업을 수행할 수 있는 포괄적인 서비스 언어로 데이터를 정리하는 편이 더 좋다. 파이썬은 포괄적인 서비스 명령형 언어이므로 사용해본 적이 없는 개발자에게도 ...

r 파이썬 데이터과학자 2017.04.10

'데이터 과학자 입문 도우미' 무료 온라인 서비스 라운드업

기술력 습득부터 관련 구직 활동까지, 데이터 과학에 입문한 사람들을 위한 무료 온라인 자료를 모아 봤다. Credit: International Data Group 진로를 바꾸는 일이 쉽지는 않지만, 높은 연봉과 전망보다 동기를 유발하는 또다른 요인들이 있다. 데이터 과학도 그중 하나다. 데이터 과학을 배우고자 하는 사람들에게 도움이 될 만한 자료들이 온라인으로 공유되고 있다. 다음은 데이터 과학에 입문하는 사람들을 위해 무료로 공개된 콘텐츠다. 1. 데이터 과학 이해하기 마이크로소프트의 웹사이트가 자동으로 떠오르지 않을 수도 있겠지만, 몇 달 전 이 회사는 ‘초보자를 위한 데이터 과학(Data Science for Beginners)’이라는 짧은 동영상 5편을 만들어 웹에 게시했다. 각 동영상은 ‘데이터 과학 5문 5답’, ‘당신의 데이터는 데이터 과학을 위해 준비돼 있나’ 같은 특정 주제를 다루고 있다. 2. 좀더 깊게 들어가기 데이터 과학 경력에 관심이 있으면, 대형 블로그와 커뮤니티 웹사이트에서 좀더 자세한 정보를 얻을 수 있다. 최근에 나온 오픈데이터사이언스닷컴(OpenDataScience.com)도 그런 사이트 중 하나며 KD너겟(KDnuggets)도 유용한 사이트다. 또다른 괜찮은 사이트 중 하나인 데이터 사이언스 센트럴(Data Science Central)에 올라온 최근 게시물은 트위터를 팔로우하는 주요 계정들도 있다. KD너겟은 데이터 과학 경력을 시작하기 전에 읽으면 좋을 만한 전자책(ebook)도 소개해 준다.   3. 요령 익히기 여전히 데이터 과학에 관심이 있나? 그렇다면 버치 웍스(Burtch Works)에서 일하는 데이터 과학 채용 담당자인 아담 플루겔이 올해 초 <PC월드>와의 인터뷰에서 언급했던 몇 가지 기술들을 습득해야 한다. 데이터캠프(DataCamp)는 개인과 조직에 교육을 제공해 준다. 이밖에 오픈소...

온라인서비스 데이터과학자 입문 2016.09.02

데이터 분석 프로젝트 확장을 위한 실행 지침

미 환경 보호국(U.S. Environmental Protection Agency)의 새로운 수석 데이터 과학자는 기관에서의 빅데이터 분석 도입을 2007년 아이폰 조기 도입에 비유했다. 미 환경 보호국의 로빈 토퉁갈은 "얼리 어댑터들은 그것이 정확히 무엇인지 몰랐지만 가치를 인지했기 때문에 사용하고 싶어했다"고 말했다. Credit: Getty Images Bank 여러 혁신 리더들도 같은 생각이다. IDC는 지난해 약 1,220억 달러의 매출을 기록한 빅데이터와 비즈니스 분석 시장이 연간 총 23.1%의 성장률을 기록하면서 2019년에는 1,870억 달러로 성장할 것으로 전망했다. 대부분의 빅데이터와 분석 툴 얼리 어댑터들은 자사가 인사이트를 지향하는 기업이 되는데 도움되기를 바란다. 하지만 목표를 이루기까지는 ▲필요한 데이터 접근의 어려움 ▲더욱 강력한 컴퓨터 시스템의 필요 ▲가치 제안이 아직 입증되지 않은 기술에 대한 사용자들 사이의 열정 심기 등 여러 문제에 직면할 것이다. 데이터 분석 인프라를 확장하기 위한 여러 이야기와 요령에 대해 알아보도록 하자. 직감이 아닌 데이터에 의지하기 클라우드 및 가상화 소프트웨어 벤더인 VM웨어(VMware) IT기업 애플리케이션 및 플랫폼 부사장 에이본 싱 푸리는 "VM웨어 영업 계획팀은 한 때 수동 프로세스, 스프레드시트, 그리고 '직감(gut feeling)'을 이용해 자사의 4,000명에 달하는 국제 영업 직원들과 200명의 영업 운영 직원들을 위한 목표를 설정했었다"고 말했다.  VM웨어는 국제적인 시장 전략과 지역 시장의 미묘한 차이를 처리하기에 충분히 유연한 영업 자동화 툴이 필요했다. 그래서 데이터 및 분석 기반 시스템으로 영업 프로세스를 강화하기에 이르렀다. 푸리와 그의 팀은 다차원 모델링 역량을 개발해 서드파티 시장 연구원의 데이터와 CRM, 마스터 데이터 관리, ERP, 기업 데이터 웨어하우스 시스템을 통합했...

통찰력 분석 인사이트 2016.08.11

데이터 과학자에게는 어떤 일을 줘야 하나

최근 공개된 2016년 미국 내 최고의 직업 25종 보고서에서 글래스도어(Glassdoor)는 데이터 과학자를 최고의 직업으로 꼽았다. 1위라는 결과는 IT 부문에 국한된 이야기가 아니었다. 모든 산업 부문 가운데 1위를 차지했다. 해당 보고서에 따르면, 데이터 과학자 직종은 현재 1,736개의 일자리가 주인을 찾고 있었고, 중간 기준 연봉은 11만 5,840달러였으며 총점 5점 만점에 4.7점을 기록했다. 하지만 자격을 갖춘 후보자가 부족한 것 또한 현실이며, 데이터 과학자를 고용하는 기업들이 그들의 역량을 효과적으로 활용하는 방법에 대해 잘 모르는 경우가 많다. 트라이팩타(Trifacta)의 데이터 과학 책임자 타이 래튼베리는 기업들이 데이터 과학자들을 고용하고 활용하는 시도가 늘어나면서 그 역할이 점차 변화하고 발전하고 있다고 진단했다. 래튼베리는 이어 기업들은 데이터 과학자를 고용하고 나서야 활용도를 모색하기보다는 확실하게 수립된 계획을 갖고 데이터 전략을 실시할 필요성이 있다고 강조했다. 업무 기술서(job description)를 정의하라 데이터 과학자는 데이터를 관리할 뿐 아니라 데이터를 해석하고 다른 사람들에게 효과적으로 전달해야 한다는 기대치를 가지고 있다. 하지만 데이터 과학자 다수는 실제 분석에 시간을 소요하기보다는 정리하고 수집/분석하는 등 유지관리 모드에 치중하고 있다고 래튼베리가 말했다. 그는 "무엇이 가능하며 무엇이 진정한 모범 사례인지에 대해 모호한 경향성이 있다. 이를 명확히 정의하는데 성공한 데이터 과학자(와 고용 기업)는 실질적인 가치를 창출해낼 수 있을 것이다. 또 과대 광고와 현실을 구분하는 원칙을 만들어갈 수 있을 것이다"라고 말했다. 센드그리드(SendGrid)의 데이터 과학자 아론 비치는 데이터 과학 부서를 구축할 때 좋은 접근방식은 정보 과부하로 과학자를 수렁에 빠뜨리는 것이 아니라 실질적인 이익을 중심으로 데이터 분석법을 수립해가는 것이라고 말했다. 그는 &...

빅데이터 데이터과학자 2016.05.18

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.