데이터ㆍ분석

빅데이터, 10가지 흔한 오해와 착각

Maria Korolov | Network World 2014.02.07


미신 2: 데이터가 클수록 가치도 커진다
데이터를 수집하고 저장하고 목록화하는 과정에는 상당한 시간과 자원이 소요된다. 때문에 무비판적으로 그저 대량의 데이터를 수집하기만 하는 태도는 프로젝트의 효율성을 크게 떨어뜨린다고 패럴은 말한다.

이런 이유로 패럴은 데이터 수집 작업을 진행하기에 앞서 그들이 필요로 하는 핵심 성과 지표가 무엇인지에 관한 아이디어를 명확히 할 필요가 있다고 조언했다.

그는 “이 들판 어딘가엔 분명 귀중한 지혜의 보물이 묻혀있다고 해서 들판 전체를 파헤치는 것은 어리석은 일이다. 당신에게 필요한 핵심은 삽을 꽂을 정확한 지점을 이해하는 것"이라고 말했다.

미신 3: 빅데이터는 대기업을 위한 것이다
대기업들이 보다 많은 내부 데이터 소스를 갖춘 것은 사실이다. 하지만 소셜 미디어 플랫폼, 정부 기관, 데이터 벤더 등 소형 기업들에게도 역시 데이터를 수집할 통로는 다양하게 열려있다.

델 소프트웨어(Dell Software) 인포메이션 매니지먼트 솔루션즈(Information Management Solutions)의 상품 관리 부문 행정 이사 데린 바틱은 “의사 결정은 언제나 직감이 아닌 데이터에 기초해 이뤄지는 것이 옳다. 이는 기업의 규모와는 무관한 명제다”라고 강조했다.

또 데이터 주도 의사 결정의 빈도에 관련해서는 기업의 규모가 클수록 유리한 부분이 있는 것이 사실이지만, 결정 사항을 수정하는 것과 같은 경우에는 오히려 작은 규모의 기업에서 더욱 신속하게 진행될 수 있다고 그는 덧붙였다.

바틱은 “소형 기업들은 자신만의 베스트 프래틱스를 이용해 보다 데이터 주도적인 문화를 구축함으로써 덩치는 크지만 굼뜬 경쟁자들을 앞지를 수 있다”고 말했다.

미신 4: 일단 수집하고, 분류는 다음에 하라
샌프란시스코에 위치한 클라우드 기반 비즈니스 인텔리전스 벤더 버스트(Birst)의 CEO 브래드 피터스는 “스토리지의 가격이 아무리 떨어져도 이를 공짜로 구할 방법은 없다. 오히려 데이터 규모의 확장 속도가 스토리지 가격 하락 속도를 능가하고 있는 것이 현실이다”고 강조했다.

기업들은 일단 데이터를 다 모아두면 훗날 그것이 어딘가에서 사용될 수 있을 것이라 생각한다. 이런 시각에 대해 피터스는 “많은 대기업들이 막대한 데이터를 쌓아두고 있다. 모두 비용이 소요되는 활동이다. 하지만 그들 중 이 데이터를 이용해 투자에 상응하는 가치를 창출했다는 이는 보지 못했다”고 지적했다.

일부 데이터 셋에 있어서는 수확 체감의 법칙이 적용되기도 한다. 한 예로 당신이 사람들에게 선거 결과 예측을 위한 여론 조사를 시행한다 가정해보자. 조사가 대표성을 확보하려면 일정 수 이상의 참여자가 필요하다. 하지만 일정 규모를 넘어가면, 여론 조사 대상을 증가시켜도 오차 한계 범위에 유의미한 영향을 미치지 못하게 된다.

피터스는 “언젠가 필요할 지 모른다는 이유로, 단지 약간의 정확도를 향상시키려는 이유로 엄청난 양의 데이터를 저장해둘 필요가 있을까? 아니면 더 많은 인력을 고용할 이유가 있을까? 네트워크를 안전하게 보호할 수 있는가? 예산은 제한되어 있다”고 말했다.

비 구조적 데이터 애널리틱스 전문 샌프란시스코 레코마인드(Recommind)의 빅데이터 관리 및 정보 관리 대표 딘 곤소우스키는 이것이 비단 저장 비용의 문제만은 아니라고 말한다.

예를 들어, 데이터가 빠져 나가면 회사에서는 그에 따른 비용을 지불하게 된다. 한편 데이터가 할 일 없이 웨어하우스에서 놀고만 있는다고 해도 법정 소송 등에서 전자증거조사제도(e-discovery)의 표적이 될 수 있다.

마지막으로 데이터가 많을수록 이것들을 정리하는 것도 오래 걸린다. “저장소에 수십 억 개의 기록이 있을 경우 원하는 자료를 검색하는 것이 짧게는 수 시간, 길게는 수 주일까지도 걸린다. 대용량 자료에 대비해 고안되지 않은 경우 막대한 양의 정보 때문에 시스템이 느려지기도 한다”고 그는 말했다.

미신 5: 모든 데이터는 동등하다
버지니아 주에서는 지난 20년 간 학생 등록, 재정 지원, 그리고 생활비 지원금 등에 대한 정보를 수집해왔다. 그렇다고 해서 반드시 20년 전에 수집해 데이터필드에 저장해 둔 데이터가 같은 데이터라는 것은 아니다.

버지니아 주 고등 교육 위원회(State Council of Higher Education)의 정책 연구원이자 데이터웨어하우징 이사 토드 마사는 “직면하는 가장 큰 문제는 단지 데이터 사전에 있다고 해서 다 괜찮다고 생각하는 연구원들이다. 예를 들어, 처음에는 버지니아 주 내부 학생들의 ACT나 SAT 시험 점수만을 모았는데 갭이 발생했다. 결국 주 내, 외부 학생들 모두의 데이터를 모으게 된 경우가 있었다”고 전했다.

마사에 따르면 인종과 민족에 관한 데이터 역시 초등학교에서 고등학교, 그리고 그 이상의 고등 교육 기관에서 각기 다르게 추적한다.

사실 특정 데이터 포인트는 기관에 따라, 시기에 따라, 혹은 그 기관의 인물에 따라 다르게 보고될 수 있다. “수집하는 데이터에 대해 모든 책임을 지는 독립된 업체나 기업의 경우 상황이 다를 수도 있다. 그렇지만 어쨌든 데이터의 의미가 시간에 따라 변화하는 것은 사실이다”라고 그는 말했다.

결과적으로, 애널리스트들은 통계학적 기술뿐 아니라 데이터에 관한 국소적인 이해와 업계 전반의 트렌드에 관한 지식을 모두 갖추고 있어야 한다. 그는 “그 모든 것들을 전부 데이터 저장소에 넣을 수는 없다”고 말했다.

외부 데이터 소스도 마찬가지다. “지난 50년 간 연방 정부 차원의 데이터 수집은 극적인 변화를 거쳐왔다. 데이터 수집의 문맥과 성격을 이해해야만 그 데이터를 잘 활용할 수 있다”고 그는 덧붙였다.

미신 6. 예측은 구체적일수록 더 좋다
사람들은 본능적으로 더 구체적인 것일수록 더 정확한 것이라 생각한다. ‘오후 3시 12분’ 이라 말하는 것이 ‘오후 몇 시쯤’이라고 말하는 것보다 더 정확하며, 일요일 아침에는 ‘반드시 비가 온다’고 말하는 기상 캐스터가 ‘이번 주말 강수 확률은 50%입니다’라고 말하는 캐스터보다 더 정확하다고 말이다.

그러나 사실은 반대다. 많은 경우 예측이 구체적일수록 정확도는 떨어진다.

예를 들어 어떤 고객이 특정 브랜드, 특정 설정의 노트북을 샀다고 해보자. 그리고 과거에 이 고객과 같은 컴퓨터를 구입한 유일한 다른 고객이 핫핑크 색 뾰족 구두 한 켤레도 샀었다고 해보자.

“이 경우 전자의 고객에게 핫핑크 색 뾰족 구두를 권하는 건 아주 구체적인 제안이긴 하지만 정확한 제안은 아니다. 또한 오차 범위도 무척 넓다”고 캘리포니아 주 산타모니카의 마케팅 업체 리텐션 사이언스(Retention Science)의 CEO 제리 자오는 설명했다.

그는 “사실 이런 오류는 마케팅 매니저나 비즈니스 매니저들 사이에서 꽤 흔하게 볼 수 있다”라고 말했다.

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.