2013.04.26

기고 | 어렵지만 가치 큰 '소셜 데이터 웨어하우징'

David Taber | CIO

전통적 데이터 웨어하우징(data warehousing)은 기업 전반의 다양한 소스들로부터 막대한 양의 관계형 데이터를 수집하고 이들 사이의 연관 관계를 구축해 통합적인, 그리고 보다 값진 가치를 창출하는 역할을 수행해왔다.

대부분의 경우 결합의 어려움은 있을지라도 관계의 명료성이나 추론의 직관성은 확보됐었다. 하지만 소셜 마케팅(social marketing), 세일즈 2.0(sales 2.0), 소셜 고객관계관리(social CRM) 등의 새로운 개념들이 부상하고 있는데, 여기에서는 상황이 다소 다르다.

이러한 시장 상황은 관리자들에게 시간 연속적 데이터와 소셜 네트워크 전반의 상호 작용에 보다 많은 주의를 기울여야 한다는 까다로운 과제를 안겨주고 있다. 이제 지금껏 경험하지 못했던 규모의 데이터와 마주하는 과제도 함께다.

첫 번째로 살펴봐야 할 요소는 행동 스코어링(behavioral scoring)이다. 이는 일종의 마케팅 자동화 시스템으로써, 단순히 기업이 전송한 이메일만을 추적하는 것이 아닌 사용자들의 페이지 방문 기록이나 쿠키, 통화 기록, 클릭 경로 등 구매와 관련을 지니는 모든 반응들을 추적해야 할 필요를 제시한다.

익명의 방문자들에 대한 데이터 역시 기존 사용자들의 그것만큼이나 무수히 쏟아져 올 것이다. 이제 기업들이 매달 기록해야 하는 데이터 포인트(data point)의 규모는 최소 수백 만에 이르게 될 것이다.

소셜 네트워킹과 관련해, 이제는 누가 어느 소셜 네트워크에 소속되어 있는지를 파악하는 것만으로는 충분치 않다. 이제 목표는 이메일 및 통화 기록, 소셜 포스팅 등의 패턴에 기반해 소셜 네트워크 그래프를 제작하고 이를 통해 커뮤니티의 영향력 있는 인물이 누구인지를 이해하는 데까지 나아가야 한다.

이 그래프는 기업이 잠재적 고객에게 접근하고 영향을 미칠 가장 직접적이고 안정적인 방법을 이해하는데 역시 도움을 줄 것이다. 소셜 네트워크란 그 개별적 연결 상태는 단순하지만 그것들이 모여 증폭되는 영향력의 차원은 기하급수적 형태를 띄는, 실로 압도적인 개념이다.

셋째로 실시간 메시지를 비롯한 소셜 피드들은 고객들의 정서를 추적하고 그들의 어휘를 분석하는데 유용하게 이용될 수 있다. 하지만 이는 (특히 첨부 파일까지 고려할 경우) 고도의 비정형 데이터라는 사실을 기억할 필요가 있다. 그러나 영상 내 브랜드 언급 혹은 로고 등장 등의 분석에 관심이 있다면 이에 관한 기록으로 상당한 가치를 창출할 수 있을 것이다.

소셜 데이터는 양적, 질적 과제를 동시에 안겨준다
위에 언급된 각각의 피드들이 단순히 그 규모적 측면에서만 어려움을 안겨주는 것이 아니다. 이제는 시간 순서를 유지하고 복수의 매체들 전반에서 발생하는 사건들을 연결하는 것에 역시 신경 써야 할 필요가 있다. 이는 막대한 규모의 조합 확산으로 이어지게 될 것이다.

이에 대한 가장 분명한 해답은 분석 역량을 기록 수준 디테일들이 아닌 추출과 계산에 집중하는 것이다.

기업이 안정적인 분석으로 대부분의 쿼리(query)와 모든 추출물들을 사전에 확인할 수 있다면 이 전략은 적절한 효과를 발휘할 것이다. 하지만 세부 데이터 시험 요청이 제기될 가능성을 고려한다면 여기에서 나아가 추출된 개요 하부를 탐구할 수 있는 툴 역시 준비할 필요가 있을 것이다.

클라우드가 제공하는 경제성 및 속도는 이 문제에 유용한 해답이 될 수 있다. 오늘날에는 다양한 클라우드 전용의 견고한 BI 툴들이 소개되고 있으며, 많은 클라우드 기반 사용자들은 SaaS(Software as a Service)로 자신들의 데이터 웨어하우스를 이전하는 모습을 보여주고 있다. 분명 멋진 변화라 할 수 있다.

하지만 소셜 데이터는 순수하게 클라우드 웨어하우스에만 의존하기에는 한계가 있는 것이 사실이다. 비정형 쿼리, 가설 검증, 추출 공식 등 추출 과정 기저의 세부 사항들은 분명 구축형 데이터베이스를 필요로 하기 때문이다. 다행인 점이라면, 디스크와 메모리 역시 발전을 계속하고 있다는 사실이다.

구축형 웨어하우스의 진짜 비용은 다른 곳에 있다. 바로 소프트웨어 및 데이터 애널리스트다. 분석 역량과 관련해서는 긍정적 변화들이 목격되고 있지만, 소프트웨어와 인력에 소요되는 비용은 떨어질 줄 모르고 있는 것이 현실이다.

잔가지는 미리, 수시로 정리해라
필자는 다람쥐처럼 데이터를 쌓아두던 사람이었다. 하지만 소셜 데이터 웨어하우징의 등장으로 이제는 세부 데이터를 언제까지나 보관하는 것이 의미 없는 일이 되었다.



2013.04.26

기고 | 어렵지만 가치 큰 '소셜 데이터 웨어하우징'

David Taber | CIO

전통적 데이터 웨어하우징(data warehousing)은 기업 전반의 다양한 소스들로부터 막대한 양의 관계형 데이터를 수집하고 이들 사이의 연관 관계를 구축해 통합적인, 그리고 보다 값진 가치를 창출하는 역할을 수행해왔다.

대부분의 경우 결합의 어려움은 있을지라도 관계의 명료성이나 추론의 직관성은 확보됐었다. 하지만 소셜 마케팅(social marketing), 세일즈 2.0(sales 2.0), 소셜 고객관계관리(social CRM) 등의 새로운 개념들이 부상하고 있는데, 여기에서는 상황이 다소 다르다.

이러한 시장 상황은 관리자들에게 시간 연속적 데이터와 소셜 네트워크 전반의 상호 작용에 보다 많은 주의를 기울여야 한다는 까다로운 과제를 안겨주고 있다. 이제 지금껏 경험하지 못했던 규모의 데이터와 마주하는 과제도 함께다.

첫 번째로 살펴봐야 할 요소는 행동 스코어링(behavioral scoring)이다. 이는 일종의 마케팅 자동화 시스템으로써, 단순히 기업이 전송한 이메일만을 추적하는 것이 아닌 사용자들의 페이지 방문 기록이나 쿠키, 통화 기록, 클릭 경로 등 구매와 관련을 지니는 모든 반응들을 추적해야 할 필요를 제시한다.

익명의 방문자들에 대한 데이터 역시 기존 사용자들의 그것만큼이나 무수히 쏟아져 올 것이다. 이제 기업들이 매달 기록해야 하는 데이터 포인트(data point)의 규모는 최소 수백 만에 이르게 될 것이다.

소셜 네트워킹과 관련해, 이제는 누가 어느 소셜 네트워크에 소속되어 있는지를 파악하는 것만으로는 충분치 않다. 이제 목표는 이메일 및 통화 기록, 소셜 포스팅 등의 패턴에 기반해 소셜 네트워크 그래프를 제작하고 이를 통해 커뮤니티의 영향력 있는 인물이 누구인지를 이해하는 데까지 나아가야 한다.

이 그래프는 기업이 잠재적 고객에게 접근하고 영향을 미칠 가장 직접적이고 안정적인 방법을 이해하는데 역시 도움을 줄 것이다. 소셜 네트워크란 그 개별적 연결 상태는 단순하지만 그것들이 모여 증폭되는 영향력의 차원은 기하급수적 형태를 띄는, 실로 압도적인 개념이다.

셋째로 실시간 메시지를 비롯한 소셜 피드들은 고객들의 정서를 추적하고 그들의 어휘를 분석하는데 유용하게 이용될 수 있다. 하지만 이는 (특히 첨부 파일까지 고려할 경우) 고도의 비정형 데이터라는 사실을 기억할 필요가 있다. 그러나 영상 내 브랜드 언급 혹은 로고 등장 등의 분석에 관심이 있다면 이에 관한 기록으로 상당한 가치를 창출할 수 있을 것이다.

소셜 데이터는 양적, 질적 과제를 동시에 안겨준다
위에 언급된 각각의 피드들이 단순히 그 규모적 측면에서만 어려움을 안겨주는 것이 아니다. 이제는 시간 순서를 유지하고 복수의 매체들 전반에서 발생하는 사건들을 연결하는 것에 역시 신경 써야 할 필요가 있다. 이는 막대한 규모의 조합 확산으로 이어지게 될 것이다.

이에 대한 가장 분명한 해답은 분석 역량을 기록 수준 디테일들이 아닌 추출과 계산에 집중하는 것이다.

기업이 안정적인 분석으로 대부분의 쿼리(query)와 모든 추출물들을 사전에 확인할 수 있다면 이 전략은 적절한 효과를 발휘할 것이다. 하지만 세부 데이터 시험 요청이 제기될 가능성을 고려한다면 여기에서 나아가 추출된 개요 하부를 탐구할 수 있는 툴 역시 준비할 필요가 있을 것이다.

클라우드가 제공하는 경제성 및 속도는 이 문제에 유용한 해답이 될 수 있다. 오늘날에는 다양한 클라우드 전용의 견고한 BI 툴들이 소개되고 있으며, 많은 클라우드 기반 사용자들은 SaaS(Software as a Service)로 자신들의 데이터 웨어하우스를 이전하는 모습을 보여주고 있다. 분명 멋진 변화라 할 수 있다.

하지만 소셜 데이터는 순수하게 클라우드 웨어하우스에만 의존하기에는 한계가 있는 것이 사실이다. 비정형 쿼리, 가설 검증, 추출 공식 등 추출 과정 기저의 세부 사항들은 분명 구축형 데이터베이스를 필요로 하기 때문이다. 다행인 점이라면, 디스크와 메모리 역시 발전을 계속하고 있다는 사실이다.

구축형 웨어하우스의 진짜 비용은 다른 곳에 있다. 바로 소프트웨어 및 데이터 애널리스트다. 분석 역량과 관련해서는 긍정적 변화들이 목격되고 있지만, 소프트웨어와 인력에 소요되는 비용은 떨어질 줄 모르고 있는 것이 현실이다.

잔가지는 미리, 수시로 정리해라
필자는 다람쥐처럼 데이터를 쌓아두던 사람이었다. 하지만 소셜 데이터 웨어하우징의 등장으로 이제는 세부 데이터를 언제까지나 보관하는 것이 의미 없는 일이 되었다.



X