칼럼 | 데이터 부자와 정보 거지...NSA 폭로·총기 난사 사건이 시사하는 빅 데이터 함정

CIO

이제 EU 최고 인권상 수상자 유력 후보에 오른 에드워드 스노든(Edward Snowden)의 NSA 민간인 감시 폭로 사건을 보자. 다음으로 미국에서 일어나는 대규모 총기 난사 사고들을 생각해보자.

전혀 관계 없어 보이는 두 이야기지만 사실 이 사례들은 빅 데이터 관련 문제의 핵심을 공유하고 있다. 우리는 흔히 애널리틱스나 결과물이 아닌, 데이터에 주목한다. 그러나 이런 방식을 취할 때, 의미 없는 솔루션을 개발하는 실수를 범할 수 있다. 그 결과가 유익할 가능성은 별로 없는 것이다.

빅 데이터 자체에 집착하면 결과물은 허술해진다
몇 개월 전 버락 오바마 재선 운동 본부의 CTO 하퍼 리드는 EMC 행사에서 빅 데이터 활동의 출발점은 데이터 애널리틱스여야 하며, 정보 수집보다 정보 활용 계획 수립을 우선시해야 한다고 역설했다.

리드는, 특히 프로젝트의 첫 단계에서는, '미니멀리즘'의 원칙에 유념해야 한다고 강조했다. 적은 데이터로 많은 일을 할 수 없는 이들이라면, 대량의 정보를 수집한다 해서 특별히 더 많은 가치를 발굴할 수 있지 못할 것이며, 오히려 복잡성 증대와 목표 혼동의 문제만을 겪을 것이라고 지적했다.

그러나 흥미로운 점은 리드의 이와 같은 이론을 토대로 재선에 성공한 오바마 행정부가 시민들의 개인 정보를 다룸에 있어서는 정반대의 행동을 취했다는 사실이다.

사실 우리는 강력해진 스토리지 파워에 취해 데이터 수집에 지나치게 집착해 왔고, 지금도 그러하다. 마치 최대한의 데이터를 수집하는 것이 오늘날의 시대 정신으로 보일 정도다. 이런 태도는 지난 20여 년을 데이터의 저장과 백업, 그리고 재저장 문제 해결에 집착하는 결과로 이어졌다.

미 정부는 빅 데이터 문제를 겪고 있다
일례로 미국 정부는 시민들의 출생, 체포, 학력, 봉사, 건강, 차량, 재직, 납세(소득세, 재산세, 부가가치세 등) 기록을 수집한다. 연방, 주, 혹은 지방 정부는 어쩌면 자신보다 더 많은 자신의 정보를 갖고 있다.

문제는 9/11 이후 이토록 막대한 정보를 분석할 수 있는 이가 아무도 없다는 점이다. 각각의 데이터는 각기 다른 시스템에 보관되었고, 이들 간에 공유는 거의 없다시피 했다.

사건 이후 발간된 '9/11 위원회 보고서(The 9/11 Commission Report)' 역시 그 시작을 시스템의 무능력에 대해 지적하고, 이를 극복해 위협을 확인하고 거기에 대응하기 위한 협력의 중요성을 강조하는 것으로 출발한다.

정부에겐 재난을 사전에 예측할 데이터가 모아져 있다는 것이 보고서가 기본적으로 강조하는 사항이다. 뿐만 아니라 정부에겐 항공기가 공격 당할 경우 그것의 운행을 중단할 자산 역시 존재한다고 보고서는 설명했다.

하지만, 결국 아무것도 실행된 것은 없었다. 한 마디로 '데이터 부자'지만 '정보 거지'다.

NSA, 우리는 그저 모든 데이터를 모을 뿐이다
조직적 협력의 부재 문제를 해결하기 위해 노력하는 대신(이는 절대적으로 데이터베이스를 구축하는 수고를 서로에게 떠넘기려는 알력 다툼의 문제라고 생각한다), 국가안보국(National Security Administration, NSA)은 막대한 규모의 개인 정보를 포착하는 작전을 시행했다.
일부는 NSA의 프로그램이 위헌이라 주장하기도 한다. 그러나, NSA가 구축한 데이터베이스와 그 위에 쌓고 있는 데이터들이 여타 정부의 정보 소스들과의 상호 검토에 폐쇄적이라는 점도 문제다.


대규모 데이터 수집은 끊임없이 이뤄지고 있는 현 시점에서, 또 한 번의 총기 난사 사건이 벌어졌다. 12명의 미국 시민을 살해한 용의자는 건강 문제와 폭력 전과를 지닌 인물이었다.

심지어 이번 사고는 무장한 경비원들이 보호하는, 최고 보안 수준을 자랑하는 기관 가운데 한 곳이라 할 수 있는 해군 소속 시설에서 벌어진 것이었다. 하지만 그들이 피의자에 대해 파악하고 있는 정보는 전무했다.

2013년 한 해에만 17건 이상의 총기 사고가 발생했다. 지난 30년 간의 총기 난사 기록과 다를 바 없는 수치다. 감시 카메라의 수와 성능, 데이터 수집과 애널리틱스 역량은 향상되어가는데, 왜 사고는 줄어들지 않는 것일까? 정부에게 사건을 해결할 의지가 부족한 것일까?

요약하자면, 미국 정부는 시민의 안전 증진을 위해 막대한 양의 정보를 수집하고 있지만, 의미있는 성과 사례는 아직 발견되지 않고 있다.

솔루션을 먼저 생각하라. 어떤 데이터가 필요할지는 다음의 문제다
9/11 사태의 핵심적인 문제는 각 데이터베이스를 연결해 재난을 예방할 지표들을 수집할 능력이 없었다는 점이다. 이 과정이 어렵다고 판단한 NSA는 더 많은 데이터를 수집하는 쪽으로 초점을 돌렸지만(심지어 불법적인 방법으로), 손에 잡힌 결과는 아무것도 없었다.

NSA의 접근법은 사실 다른 영역들에서도 흔히 발견되는 것이다. 해결해야 할 지점을 명확히 정의하지도 못했는데, 데이터를 수집하고 통제한다고 무슨 소용이 있겠는가?

우리에게 필요한 진짜 전략은 다음과 같다.
명확한 표준을 확립하고, 모든 데이터베이스를 그 곳에 집중하라. 그리고 추가적 데이터 수집에 앞서 기존 데이터들부터 먼저 분석하라. 그리하면 적법성의 논란도 없을 것이며, 효율성과 경제성도 향상될 것이다.

또한 지원을 필요로 하는 퇴역 군인들에게 수 십장의 서류를 작성할 것을 요구했던 퇴역군인국(Department of Veterans Affairs)의 악몽 치료 프로그램과 같은 문제의 발생 역시 예방이 가능할 것이다.

핵심은 간단하다. 손 안의 문제부터 해결하라.

빅 데이터는 너무나 커서, 요령이 통하지 않는다. 단계를 차근차근 밟아 나가는 것만이 해답이다. 이 원칙만 명심한다면, 빅 데이터는 가치를 제공해 줄 것이다. 사전에 명확히 설정된 애널리틱스 계획은 또 어떤 데이터가 추가적으로 필요한지 알려줄 것이다. 반대로 이 원칙을 무시한다면, 문제는 눈덩이처럼 커져만 갈 것이다.

*Rob Enderle은 엔덜 그룹(Enderle Group)의 대표이자 수석 애널리스트다. 그는 포레스터리서치와 기가인포메이션그룹(Giga Information Group)의 선임 연구원이었으며, 이전에는 IBM에서 내부 감사, 경쟁력 분석, 마케팅, 재무, 보안 등의 업무를 맡았다. 현재는 신기술, 보안, 리눅스 등에 대해 전문 기고가로도 활동하고 있다. ciokr@idg.co.kr