2018.02.22

ITWorld 용어풀이 | 다크 데이터

허은애 기자 | ITWorld
잠깐 PC에서 내 문서, 다운로드, 내 사진 폴더를 살펴봅시다. 내려 받았지만 설치하지 않은 압축 파일, 언젠가 쓸 일이 있을 거라고 생각해 저장한 유행 지난 사진, 파일명 끝에 (2)나 (3)이 붙은 복사본 등이 생각보다 큰 자리를 차지하고 있을 것입니다.

디지털 유니버스(Digital Universe)의 조사에서는 2020년까지 어린이를 포함한 지구상의 모든 인구당 5,200GB의 데이터가 생산될 것이고, 그 총합은 40ZB를 넘을 것이라고 발표한 바 있습니다. 물론, 쓸모 없는 데이터와 유용한 데이터는 마구 뒤섞여 있게 마련입니다.


보유하고 있지만 사용하지 않고 분석되지도 않는 데이터는 기업에도 있습니다. 이런 데이터를 가리켜 ‘다크 데이터(Dark Data)’라고 합니다. 다크 데이터는 빅데이터와 비슷하지만, 구조화되지 않고 다른 데이터와 연결되지 않은 데이터, 심지어는 사용할 수 없는 데이터를 말합니다. 이런 데이터는 문서나 공유 서버 어딘가에 남아있거나 여러 가지 플랫폼에 걸쳐 존재하기도 합니다. 가트너는 “기업의 정기적인 활동에 수집, 처리, 저장하지만 다른 용도로 사용되지는 않는 정보 자산”이라고 다크 데이터를 정의했습니다.

다크 데이터는 기업 정보 자산의 상당 부분을 차지해 스토리지 비용을 유발하며, 유용한 정보를 찾기 어렵게 만들기 때문에 기업의 기회와 경쟁력, 생산성을 해칠 수 있습니다. 개인 정보 보호 같은 정부 규제를 준수하기 위해 보관하기만 하는 데이터, 유지 자체가 목적인 데이터도 있고, 분석 도구에서 지원하지 않는 형식으로 저장돼 실행할 수 없는 데이터도 다크 데이터에 해당됩니다. 물론 구조화되지 않은 데이터, 활용처를 찾지 못한 데이터도 다크 데이터에 포함됩니다.

그러나 하둡, 스파크 같은 신기술로 대용량 데이터를 처리할 수 있게 되면서 자리만 차지하던 다크 데이터, 특히 과거 분석에 너무 많은 비용이 들어 주목 받지 못했던 데이터가 빛을 보는 사례가 늘어났습니다. 이렇게 분석한 다크 데이터 자체에는 큰 가치가 없을 수도 있지만, 원래 보유하고 있던 빅데이터와 결합하면 과거에 몰랐던 새로운 사용자 행동이나 패턴을 알아낼 수 있습니다. 예를 들어 고객과의 상담 내용 같은 필수 보관 데이터를 연락 방법이나 시간대와 연결하면, 고객이 많이 몰리는 시간, 선호하는 상담 방식 등을 이해할 수 있을 것입니다.

흔히 데이터가 미래를 좌우한다고 말합니다. 데이터를 잘 분석하면 시장 흐름과 고객의 성향을 예측해 더 정확한 전략을 세울 수 있기 때문입니다. 빅데이터에 대한 관심이 커지고 데이터 수집과 분석의 활용 범위가 확대되는 것도 같은 이유에서입니다. 그러나 개인 정보 같은 민감한 데이터를 수집하고 분석하기에 앞서, 투명성을 갖춘 올바른 정책을 수립해야 할 것입니다. editor@itworld.co.kr 


2018.02.22

ITWorld 용어풀이 | 다크 데이터

허은애 기자 | ITWorld
잠깐 PC에서 내 문서, 다운로드, 내 사진 폴더를 살펴봅시다. 내려 받았지만 설치하지 않은 압축 파일, 언젠가 쓸 일이 있을 거라고 생각해 저장한 유행 지난 사진, 파일명 끝에 (2)나 (3)이 붙은 복사본 등이 생각보다 큰 자리를 차지하고 있을 것입니다.

디지털 유니버스(Digital Universe)의 조사에서는 2020년까지 어린이를 포함한 지구상의 모든 인구당 5,200GB의 데이터가 생산될 것이고, 그 총합은 40ZB를 넘을 것이라고 발표한 바 있습니다. 물론, 쓸모 없는 데이터와 유용한 데이터는 마구 뒤섞여 있게 마련입니다.


보유하고 있지만 사용하지 않고 분석되지도 않는 데이터는 기업에도 있습니다. 이런 데이터를 가리켜 ‘다크 데이터(Dark Data)’라고 합니다. 다크 데이터는 빅데이터와 비슷하지만, 구조화되지 않고 다른 데이터와 연결되지 않은 데이터, 심지어는 사용할 수 없는 데이터를 말합니다. 이런 데이터는 문서나 공유 서버 어딘가에 남아있거나 여러 가지 플랫폼에 걸쳐 존재하기도 합니다. 가트너는 “기업의 정기적인 활동에 수집, 처리, 저장하지만 다른 용도로 사용되지는 않는 정보 자산”이라고 다크 데이터를 정의했습니다.

다크 데이터는 기업 정보 자산의 상당 부분을 차지해 스토리지 비용을 유발하며, 유용한 정보를 찾기 어렵게 만들기 때문에 기업의 기회와 경쟁력, 생산성을 해칠 수 있습니다. 개인 정보 보호 같은 정부 규제를 준수하기 위해 보관하기만 하는 데이터, 유지 자체가 목적인 데이터도 있고, 분석 도구에서 지원하지 않는 형식으로 저장돼 실행할 수 없는 데이터도 다크 데이터에 해당됩니다. 물론 구조화되지 않은 데이터, 활용처를 찾지 못한 데이터도 다크 데이터에 포함됩니다.

그러나 하둡, 스파크 같은 신기술로 대용량 데이터를 처리할 수 있게 되면서 자리만 차지하던 다크 데이터, 특히 과거 분석에 너무 많은 비용이 들어 주목 받지 못했던 데이터가 빛을 보는 사례가 늘어났습니다. 이렇게 분석한 다크 데이터 자체에는 큰 가치가 없을 수도 있지만, 원래 보유하고 있던 빅데이터와 결합하면 과거에 몰랐던 새로운 사용자 행동이나 패턴을 알아낼 수 있습니다. 예를 들어 고객과의 상담 내용 같은 필수 보관 데이터를 연락 방법이나 시간대와 연결하면, 고객이 많이 몰리는 시간, 선호하는 상담 방식 등을 이해할 수 있을 것입니다.

흔히 데이터가 미래를 좌우한다고 말합니다. 데이터를 잘 분석하면 시장 흐름과 고객의 성향을 예측해 더 정확한 전략을 세울 수 있기 때문입니다. 빅데이터에 대한 관심이 커지고 데이터 수집과 분석의 활용 범위가 확대되는 것도 같은 이유에서입니다. 그러나 개인 정보 같은 민감한 데이터를 수집하고 분석하기에 앞서, 투명성을 갖춘 올바른 정책을 수립해야 할 것입니다. editor@itworld.co.kr 


X