AIㆍML / 스토리지

IDG 블로그 | 모든 데이터를 영원히 저장해서는 안된다

Andrew C. Oliver | InfoWorld 2017.12.11
오래 된 데이터 대부분은 쓸데없는 쓰레기다. 인공지능이 뭔가 쓸만한 것을 찾아낼 것이란 기대에 돈과 시간을 허비하는 것보다는 그냥 버리는 것이 낫다.

현대 IT의 기본 정서는 모든 데이터는 귀중한 것이고 영원히 저장해야 하고, 그리고 머신러닝이 언젠가 그 가치를 마법처럼 찾아낸다는 것이다. 아마도 EMC가 2020년이면 어떻게 44제타바이트의 데이터가 쌓이게 되는지 설명하는 그림을 본 적이 있을 것이다. 그렇다면 ‘모든 데이터는 귀중하다’는 유행이 기업에도 맞을까? 아마도 모든 데이터를 저장하고 어떤 것도 지우면 안된다는 데이터 스토리지 업체의 말을 그대로 믿어서는 안될 것이다.

Image Credit : GettyImagesBank

웹 초기 시절, 사람들이 웹을 찾는 주된 이유가 포르노와 구직, 그리고 고양이 사진 때문이라고 말하곤 했다. 만약 그 모든 고양이 사진을 다운로드해서 머신러닝 알고리즘을 돌리면, 아마도 가장 인기 있는 고양이 색과 품종, 그리고 사람들이 정말로 자기 고양이를 좋아한다는 사실을 알 수 있을 것이다. 하지만 굳이 그럴 필요는 없다. 이미 알고 있는 것들이지 않은가? 세 가지 중 어느 것이라도 구글에 입력하면 바로 답을 얻을 수 있다. 또한 고양이를 키우는 사람들에게도 전혀 중요한 데이터가 아니다.

기업에도 고양이 사진 같은 데이터가 많다. 1999년 재고 유지 관련 정책과 절차가 어땠는지는 사실 중요하지 않다. 이 정보를 당시에는 저장해야 할 어떤 법적 문제가 있어서 법령의 제약을 통과했을 것이다. 하지만 이제 이 데이터에서 최근 데이터에서는 얻을 수 없는 어떤 것을 얻어낼 수 있을 것이라고 생각하기는 어렵다.

머신러닝이나 인공지능은 1999년 재고 유지 정책과 절차에 관한 어떤 흥미로운 사실도 알려주지 않을 것이다. 심지어 이들 데이터는 ‘다크 데이터(Dark Data)’의 일종일 수도 있어서 검색 툴이 이들 데이터 위의 다른 데이터만 열심히 처리할 수도 있다. 누군가 ‘1999년 재고 유지 절차’라고 쿼리를 던지지 않는 이상 나타나지 않을 수도 있다.

태초의 시간으로 돌아갈 수 있는 로그가 쌓여있다. 아무리 핏비트라 해도 사용자의 모든 호흡과 발걸음을 캡처해 저장하지는 않는다. 물론 각각의 호흡과 발걸음은 약간씩 다른 특징이 있지만, 중요하지는 않다. 마찬가지로 2016년에 사용하던 자바 EE 애플리케이션이 시간당 얼마나 많은 예외가 발생했는지는 전혀 중요하지 않다. 지금은 Node.js를 사용하고 있지 않은가? 만약 “한 해에 시간당 얼마나 많은 에러가 발생했는가”가 중요한 지표라면, 해당 정보만 요약할 수 있다. 모든 시간의 모든 로그를 저장할 필요는 없다. 그런 로그가 유용할 것이라고 기대하는 것은 합리적이지 않다.

추정하기에 이런 데이터를 저장하고 있는 것은 인공지능이나 머신러닝이 그안에서 뭔가 유용한 것을 찾아낼 날을 위해서이다. 하지만 머신러닝은 마법이 아니다. 머신러닝 대부분은 분류, 회귀, 군집 알고리즘으로 이루어진다. 군집은 기본적으로 비슷해 보이는 것을 집단으로 묶는 것이지만, 2006년 자바 EE 앱 서버의 로그에서 군집을 통해 뭔가 유용한 것을 얻을 가능성은 극히 적을 것 같다. 나머지 두 알고리즘은 뭔가를 생각해 낸 다음, 머신러닝을 훈련시킬 때 필요한 것이다. 이 말은 어떤 것이 유용할지 기준을 세우고 유용한 것을 찾아내고 그 다음에 컴퓨터를 훈련시켜야 한다는 것이다.

스토리지는 이제 저렴하다. 하지만 조직과 인사이트는 그렇지 않다. SAN 장비를 싸게 샀다고 해서, 아니면 클러스터링된 파일 시스템으로 미러링된 JBOD 구성을 구동하고 있다고 해서 잡음과도 같은 데이터를 저장하는 것이 저렴하지는 않다. 이 모든 것을 구성하고 유지하고 보관하는 인건비를 생각해야 한다. 게다가 현대 검색 기술이 관계없는 것으로부터 관계있는 것을 걸러내는 데 뛰어나지만, 그렇게 하는 데는 일정한 비용이 든다.

가을이 끝났다면, 이제 낙엽을 쓸어버릴 때다.  editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.