2016.05.17

빅데이터의 사악한 쌍둥이, '데이터 잔해'의 5가지 특징

Katherine Noyes | Computerworld
빅데이터는 이제 기업 세계에서 익숙한 용어다. 이미 크고 작은 기업이 이를 활용하기 위해 부산하게 움직이고 있다. 반면 '데이터 잔해(Data Exhaust)'는 상대적으로 덜 알려져 있다. 어떤 의미에서는 빅데이터의 '이블 트윈(Evil Twin, 사악한 쌍둥이)'이기도 한 데이터 잔해에 관해 알아야 할 내용을 살펴보자.


이미지 출처 : Getty Images Bank

1. 핵심적이지 않은 모든 빅데이터를 의미한다
'데이터 잔해'라는 용어가 사용된 지는 이미 10년이 넘었다. 스마트폰을 통한 새로운 데이터 스트림과 함께 생겨났다. 데이터 관련 소프트웨어를 개발하는 트리팩타(Trifacta)의 데이터 공학 및 솔루션 엔지니어링 책임자 타이 래튼베리는 "접근성이 높아진 데이터 툴이 등장하면서 데이터 잔해 관련 논의가 전면에 부상하고 있다. 빅데이터가 기업의 핵심 기능과 관련된 '기본적인' 데이터라면 데이터 잔해는 보조 데이터 또는 그 과정에서 생성된 나머지 데이터이다"라고 말했다.

예를 들어 은행에서는 고객의 계좌와 관련해서 직불과 신용에 관한 모든 데이터를 갖고 있다. 고객이 전체 거래 가운데 어느 정도를 물리적인 지점이 아닌 ATM에서 처리하는지 등의 정보도 데이터 잔해에 속할 수 있다.

이처럼 데이터 잔해는 가공되지 않고 구조화되지 않는 경향이 있다. 웹 브라우저, 플러그인(Plug-in), 로그(Log) 파일, IoT(Internet of Things) 기기 등으로부터 유입되는 스트림도 여기에 포함된다.

2. 일반적으로 매우 크다
래튼베리는 "빅데이터란 용어는 상대적인 말이고 기본적으로 '너무 커서 사람이 점검하거나 처리할 수 없다'는 의미가 있다. 데이터 잔해는 이보다 더 크다. 기업이 수집할 수 있는 것에는 사실상 제한이 없기 때문이다"라고 말했다. 선두주자는 단연 구글이다. 그는 구글을 가리켜 "목적을 파악하기도 전에 '문자 그대로' 모든 것을 수집한다"고 표현했다.

일단 데이터 잔해가 매우 크다는 것은 분명하다. 여기에 구글의 사례를 보면 또 다른 흥미로운 특징을 알 수 있다. 즉 데이터 잔해도 일단 용도를 발견하면 기업의 핵심 기능과 관련된 '기본적인' 데이터가 될 수 있다는 사실이다.

3. 잠재력이 크다
실제로 데이터 잔해는 꽤 유용하게 쓰일 수 있다. 예를 들어 은행에서 고객이 주로 거래하는 곳을 파악하면 은행 업무에 큰 도움이 된다. 래튼베리는 "기업 활동의 핵심은 아닐 수 있지만, 최소한 고객에 더 좋은 서비스를 제공하는 실마리가 될 수 있다. 이런 데이터는 고객이 원하는 기본적인 거래 또는 서비스에 대한 일정 수준의 이해와 맥락화를 제공한다"라고 말했다.

시장조사업체 트랜스월드 데이터(Transworld Data)의 대표 마리 샤클렛은 "데이터 잔해에는 지금은 찾지 않지만, 미래에는 유용할 수 있는 중요한 정보 요소가 포함돼 있을 수 있다"고 말했다.

엔터프라이즈 스트래터지 그룹(Enterprise Strategy Group)의 수석 애널리스트 닉 라우다도 "잔해 데이터의 가치는 즉각적으로 드러나지 않으므로 현재 또는 미래의 가치를 파악하는 것이 중요하다"고 말했다.

4. 데이터 늪을 경계하고 법적 위험을 파악해야 한다
데이터 잔해에는 위험이 도사린다. 래튼베리는 "데이터 잔해에는 고객이 제공하고 싶지 않은 것이 포함될 수 있다. 따라서 해당 데이터 활용과 관련해 법률과 마케팅, 홍보 측면에서 위험이 존재한다. 고객이나 파트너가 원치 않는 것을 분석했음을 알게 되면 그들을 잃을 수도 있다"고 말했다.

이러한 결과의 위험성은 상상 이상이다. 예를 들어, 보험사에서 고객이 최근에 차량을 주차한 모든 GPS 위치를 파악하면 범죄율이 높은 지역에 정기적으로 주차하는 고객을 추려내 그들의 보험료를 높이고 더 많은 수익을 낼 수 있다. 그러나 이런 식으로 알고리즘을 실제로 적용했다가는 인종 차별 논란에 휩싸일 수 있다.

또 다른 잠재적인 위험은 절대로 유용할 일이 없는 데이터를 저장하는 것이다. 샤클렛은 "CIO는 데이터 잔해의 가치와 쓸모없는 엄청난 데이터를 영원히 보관할 때의 낭비 사이에서 균형점을 찾아야 한다. 물론 매우 어려운 작업이다"라고 말했다.

라우다는 "데이터 잔해를 분석하는 것은 단순히 점진적인 통찰력과 비즈니스 활동의 변화 이상을 꾀하는 것이다. 이런 목적이 없다면 데이터 레이크(Data Lake)는 데이터 늪(Swamp)이 된다"고 말했다.

5. 의사결정이 중요하다
따라서 가장 중요한 것은 저장할 데이터 잔해를 선별하는 것이다. 샤클렛은 "포기할 것을 결정해야 한다. 예를 들어, 스마트폰과 다른 기기의 경우 관련 스트리밍 데이터의 상당 부분은 무의미하다. 이런 종류의 데이터가 과연 유용할지 솔직히 의심스럽다"고 말했다.

법적인 문제는 변호사와 상의하는 것이 좋다. 또한, 데이터 잔해를 잘 활용하려면 직원을 데이터에 접촉하는 핵심사업에 가깝게 배치하는 것도 방법이다.

래튼베리은 "(직원을 적절한 곳에 배치하면) 업무 관련성이 있는 질의를 즉각 수행해 볼 수 있다"고 말했다. 이런 효과를 누리려면 기술적인 관점에서 확장 가능한 저장소 기술뿐만 아니라 셀프 서비스 데이터 접속 툴이 필요하다. 그는 "잔해 데이터를 활용할 때 가장 어려운 부분 중 하나는 이에 대한 일관성 있는 관점을 갖는 것이다. 이를 위해 데이터를 정제, 통합하는 것도 쉽지 않은 작업이다"라고 말했다.

래튼베리는 "예를 들어 고객이 한 곳에서 서비스에 가입하고 다른 곳에서 신용카드 정보를 입력하는 식으로 같은 데이터가 서로 다른 시스템에 저장돼 있을 수 있다. 하지만 보조적인 데이터의 경우 기업 대부분이 수집과 동시에 정리하지 않는 것이 일반적이다. 결국, 데이터 잔해를 활용하는 출발점은 명확하다. '여기 엄청난 양의 데이터가 있으니 무엇인가 해보자'고 말하는 것이 중요한 것이 아니라는 것을 깨닫는 것이다"라고 말했다. ciokr@idg.co.kr


2016.05.17

빅데이터의 사악한 쌍둥이, '데이터 잔해'의 5가지 특징

Katherine Noyes | Computerworld
빅데이터는 이제 기업 세계에서 익숙한 용어다. 이미 크고 작은 기업이 이를 활용하기 위해 부산하게 움직이고 있다. 반면 '데이터 잔해(Data Exhaust)'는 상대적으로 덜 알려져 있다. 어떤 의미에서는 빅데이터의 '이블 트윈(Evil Twin, 사악한 쌍둥이)'이기도 한 데이터 잔해에 관해 알아야 할 내용을 살펴보자.


이미지 출처 : Getty Images Bank

1. 핵심적이지 않은 모든 빅데이터를 의미한다
'데이터 잔해'라는 용어가 사용된 지는 이미 10년이 넘었다. 스마트폰을 통한 새로운 데이터 스트림과 함께 생겨났다. 데이터 관련 소프트웨어를 개발하는 트리팩타(Trifacta)의 데이터 공학 및 솔루션 엔지니어링 책임자 타이 래튼베리는 "접근성이 높아진 데이터 툴이 등장하면서 데이터 잔해 관련 논의가 전면에 부상하고 있다. 빅데이터가 기업의 핵심 기능과 관련된 '기본적인' 데이터라면 데이터 잔해는 보조 데이터 또는 그 과정에서 생성된 나머지 데이터이다"라고 말했다.

예를 들어 은행에서는 고객의 계좌와 관련해서 직불과 신용에 관한 모든 데이터를 갖고 있다. 고객이 전체 거래 가운데 어느 정도를 물리적인 지점이 아닌 ATM에서 처리하는지 등의 정보도 데이터 잔해에 속할 수 있다.

이처럼 데이터 잔해는 가공되지 않고 구조화되지 않는 경향이 있다. 웹 브라우저, 플러그인(Plug-in), 로그(Log) 파일, IoT(Internet of Things) 기기 등으로부터 유입되는 스트림도 여기에 포함된다.

2. 일반적으로 매우 크다
래튼베리는 "빅데이터란 용어는 상대적인 말이고 기본적으로 '너무 커서 사람이 점검하거나 처리할 수 없다'는 의미가 있다. 데이터 잔해는 이보다 더 크다. 기업이 수집할 수 있는 것에는 사실상 제한이 없기 때문이다"라고 말했다. 선두주자는 단연 구글이다. 그는 구글을 가리켜 "목적을 파악하기도 전에 '문자 그대로' 모든 것을 수집한다"고 표현했다.

일단 데이터 잔해가 매우 크다는 것은 분명하다. 여기에 구글의 사례를 보면 또 다른 흥미로운 특징을 알 수 있다. 즉 데이터 잔해도 일단 용도를 발견하면 기업의 핵심 기능과 관련된 '기본적인' 데이터가 될 수 있다는 사실이다.

3. 잠재력이 크다
실제로 데이터 잔해는 꽤 유용하게 쓰일 수 있다. 예를 들어 은행에서 고객이 주로 거래하는 곳을 파악하면 은행 업무에 큰 도움이 된다. 래튼베리는 "기업 활동의 핵심은 아닐 수 있지만, 최소한 고객에 더 좋은 서비스를 제공하는 실마리가 될 수 있다. 이런 데이터는 고객이 원하는 기본적인 거래 또는 서비스에 대한 일정 수준의 이해와 맥락화를 제공한다"라고 말했다.

시장조사업체 트랜스월드 데이터(Transworld Data)의 대표 마리 샤클렛은 "데이터 잔해에는 지금은 찾지 않지만, 미래에는 유용할 수 있는 중요한 정보 요소가 포함돼 있을 수 있다"고 말했다.

엔터프라이즈 스트래터지 그룹(Enterprise Strategy Group)의 수석 애널리스트 닉 라우다도 "잔해 데이터의 가치는 즉각적으로 드러나지 않으므로 현재 또는 미래의 가치를 파악하는 것이 중요하다"고 말했다.

4. 데이터 늪을 경계하고 법적 위험을 파악해야 한다
데이터 잔해에는 위험이 도사린다. 래튼베리는 "데이터 잔해에는 고객이 제공하고 싶지 않은 것이 포함될 수 있다. 따라서 해당 데이터 활용과 관련해 법률과 마케팅, 홍보 측면에서 위험이 존재한다. 고객이나 파트너가 원치 않는 것을 분석했음을 알게 되면 그들을 잃을 수도 있다"고 말했다.

이러한 결과의 위험성은 상상 이상이다. 예를 들어, 보험사에서 고객이 최근에 차량을 주차한 모든 GPS 위치를 파악하면 범죄율이 높은 지역에 정기적으로 주차하는 고객을 추려내 그들의 보험료를 높이고 더 많은 수익을 낼 수 있다. 그러나 이런 식으로 알고리즘을 실제로 적용했다가는 인종 차별 논란에 휩싸일 수 있다.

또 다른 잠재적인 위험은 절대로 유용할 일이 없는 데이터를 저장하는 것이다. 샤클렛은 "CIO는 데이터 잔해의 가치와 쓸모없는 엄청난 데이터를 영원히 보관할 때의 낭비 사이에서 균형점을 찾아야 한다. 물론 매우 어려운 작업이다"라고 말했다.

라우다는 "데이터 잔해를 분석하는 것은 단순히 점진적인 통찰력과 비즈니스 활동의 변화 이상을 꾀하는 것이다. 이런 목적이 없다면 데이터 레이크(Data Lake)는 데이터 늪(Swamp)이 된다"고 말했다.

5. 의사결정이 중요하다
따라서 가장 중요한 것은 저장할 데이터 잔해를 선별하는 것이다. 샤클렛은 "포기할 것을 결정해야 한다. 예를 들어, 스마트폰과 다른 기기의 경우 관련 스트리밍 데이터의 상당 부분은 무의미하다. 이런 종류의 데이터가 과연 유용할지 솔직히 의심스럽다"고 말했다.

법적인 문제는 변호사와 상의하는 것이 좋다. 또한, 데이터 잔해를 잘 활용하려면 직원을 데이터에 접촉하는 핵심사업에 가깝게 배치하는 것도 방법이다.

래튼베리은 "(직원을 적절한 곳에 배치하면) 업무 관련성이 있는 질의를 즉각 수행해 볼 수 있다"고 말했다. 이런 효과를 누리려면 기술적인 관점에서 확장 가능한 저장소 기술뿐만 아니라 셀프 서비스 데이터 접속 툴이 필요하다. 그는 "잔해 데이터를 활용할 때 가장 어려운 부분 중 하나는 이에 대한 일관성 있는 관점을 갖는 것이다. 이를 위해 데이터를 정제, 통합하는 것도 쉽지 않은 작업이다"라고 말했다.

래튼베리는 "예를 들어 고객이 한 곳에서 서비스에 가입하고 다른 곳에서 신용카드 정보를 입력하는 식으로 같은 데이터가 서로 다른 시스템에 저장돼 있을 수 있다. 하지만 보조적인 데이터의 경우 기업 대부분이 수집과 동시에 정리하지 않는 것이 일반적이다. 결국, 데이터 잔해를 활용하는 출발점은 명확하다. '여기 엄청난 양의 데이터가 있으니 무엇인가 해보자'고 말하는 것이 중요한 것이 아니라는 것을 깨닫는 것이다"라고 말했다. ciokr@idg.co.kr


X