데이터ㆍ분석 / 미래기술

블로그 | 공공 데이터의 영향력 확대에 앞서 해결해야 할 과제들

Matt Asay  | InfoWorld 2022.03.10
지난 20년 동안의 슬로건이 오픈소스였다면 향후 20년의 목표는 ‘공공 데이터(Open Data)’가 될지도 모른다. 단, 공공 데이터가 무슨 뜻인지 그 의미를 정확히 파악할 수 있어야 할 것이다.

필자는 최근 트위터에 공공 데이터의 중요성과 확보 방법을 이야기하고 좋은 반응을 얻었다. 그럼에도 모든 사용자가 각기 다른 것을 응원하는 것 같았다. 좋든 싫든, 오픈소스는 OSI(Open Source Initiative)의 노력으로 상대적으로 표준화된 것을 의미하게 되었다. 그러나 공공 데이터에는 이런 조직이 존재하지 않는다.

누군가 공공 데이터에 대한 표준을 설정해야 한다는 생각이 들었다. 오픈소스를 넘어선 공공 데이터는 다음 컴퓨팅 시대를 정의할 것이다. 하지만 공공 데이터는 과연 어떤 의미일까? 디르크 리엘 교수가 말한 것처럼 앞으로 20년 후에도 같은 질문을 던지고 있을까?
 
ⓒ Getty Images Bank
 

소스와 표준

기업이 소프트웨어/소스가 아니라 관리형 서비스를 원하는 클라우드 시대에 오픈소스가 특징을 잃어버렸다는 주장은 잘못된 가정이다. 오픈소스가 관찰가능성 영역의 오픈 텔레메트리(Open Telemetry) 또는 데이터베이스의 PostgreSQL 같은 표준을 조성하는 데 도움이 되기 때문이다. 오픈 텔레메트리가 일부 표준기관이 몇 년 동안 접근성 등에 대한 규칙을 정의한 표준이라는 의미는 아니다. 다양한 제공업체가 자체적인 배포판 또는 부가 소프트웨어/서비스를 위한 보편적인 시작점으로써 수용하는 프로젝트라는 의미이다.

소프트웨어가 (OSD(Open Source Definition) 하의) 오픈소스일 필요는 없지만 도움은 분명히 된다. 예를 들어, SQL 덕분에 다양한 제공업체에서 호환되는 여러 제품이 등장한 것이 사실이다. 효과도 있는 것 같다. 제공업체가 마이크로소프트 윈도우 같은 순수 전매 특허 소프트웨어를 판매하는 것도 마찬가지다. 2020년 AWS에서 근무할 때에는 윈도우가 마이크로소프트 애저가 아니라 AWS에서 가장 잘 구동되는 이유에 관한 게시물을 작성한 적도 있다. 또 다른 예는 “AWS의 권한 체커를 프로그램의 세부적인 가용 자원에까지 적용되는 범용 표준으로 만든다”는 (희망에 가까운)가정이다. 범용 권한을 통해 클라우드 제공업체는 하나의 소프트웨어에 종속되는 비극을 피하고 가격만으로 경쟁할 수 있게 되었다.

하지만 PostgreSQL을 데이터 센터에서 구동하여 PostgreSQL용 아마존 오로라 또는 PostgreSQL용 구글 클라우드 SQL을 사용하여 맵핑하는 것도 쉽지 않을 것이다. 모두 PostgreSQL이지 않은가? 물론이다. 하지만 다른 것도 사실이다. 제공업체가 다양하면 그만큼 여러 가지를 추가해 고객 요구를 충족할 수 있다. 그렇다면 PostgreSQL은 표준일까? 위에서 필자가 언급한 면에서는 표준이지만 “한 번 작성하고 모든 곳에서 실행하는” 관점에서는 그렇지 않다.

마찬가지로 공공 데이터는 그 실제 의미 또는 의미를 부여하는 방법을 논의하는 과정에서 많은 의견이 충돌할 수밖에 없다. 오픈소스 및 표준과 마찬가지로 효과는 개인적인 차이가 있을 것이다.
 

계속 사용되는 그 단어

문제는 제공업체의 우선순위다. 가트너 애널리스트 출신으로 현재 크리블(Cribl)의 시장 전략 책임자인 닉 휴데커 같은 사람은 “AWS부터 오라클, 스노우플레이크, 스플렁크(Splunk)까지 데이터 종속 현상은 기존 업체가 매출을 보호하고 성장시키는 수단이다. 공공 데이터라는 아이디어는 사용자 입장에서는 유망하지만 그 어떤 데이터 업체도 종속 현상을 포기하지 않을 것이다.”

단, 이 업체들도 자체 제품과 공공 데이터를 연동했을 때의 가치는 인지하고 있다. 데이터 유입을 차단하면서 동시에 데이터 유출을 완전히 차단하기는 어렵다. 유사한 기조에서 크런치 데이터(Crunchy Data)의 임원 크레이그 커스틴은 SQL이 데이터 이동을 지원하는 방식을 이야기하며 “SQL은 앱 측면에서 도움이 되지만 데이터 중력은 어려운 과제”라고 말했다. 종속을 외치는 제공업체도 때로는 해자를 건너기 위해 다리를 내려야 한다. 따라서 모두가 공공 데이터에 관심이 있는 것 같다. 다시 한번 말하지만 그 의미는 도대체 무엇일까?

다양한 아파치(Apache) 프로젝트(루센스(Lucene), 넛치(Nutch), 하둡(Hadoop), 아브로(Avro))의 설립자인 더그 컷팅에게 있어서 공공 데이터는 다소 특이하다. 사람 또는 시스템 사이에서 공유할 수 있는 데이터를 의미한다. 컷팅은 “(시민 재무 등)일부 데이터는 공개되어야 하지만 (카메라 영상 등)공개되지 않아야 하는 데이터가 많다. 의료 기록 등 일부는 신뢰할 수 있는 당사자가 선별적으로 공유해야 한다. 만능 정책은 없다. 복잡한 활동을 성문화하고 수정해야 한다”라고 평가했다.

데이터 휴대성 기조를 따라 AWS의 부사장 매트 윌슨은 기업 데이터를 전화번호 휴대성에 비유했다. 북미에서 통신사가 전화번호의 경쟁사 이전을 요구하면서 경쟁이 심화된 적이 있다(윌슨이 말했듯이 “미미하기는” 했다).

공공 데이터를 다른 식으로도 생각할 수 있다. 예를 들어, 머지플로(Mergeflow)의 CEO 플로리안 울프는 펍메드(PubMed)를 “가장 성공한 공공 데이터 스토리”라고 말했다. 펍메드는 생물의학 및 생명공학 문헌의 검색을 지원하는 무료 리소스다. 즉, 전매특허 유료화라는 벽 뒤에 보관되어 있는 과학 출판물을 쉽게 찾을 수 있는 데이터베이스이자 검색 엔진이다. 데이터의 공공 발견이기는 하지만 공공 액세스까지를 포함하지는 않는다(어쨌든 유료 서비스다).

이렇듯 처한 입장마다 공공 데이터의 의미가 매우 다르다는 것이 문제다.

데이터의 이동 방식에 대한 문제도 있다. 공공 데이터를 이야기할 때 AWS에서 애저로 이전하는 식의 데이터를 다른 곳으로 이동하는 것을 말한다고 착각할 수 있다. 그런 경우도 있겠지만, 내재된 데이터 형식 종속 외에도 유출 가격 때문에 데이터 이동이 쉽지 않다. 하지만 기업은 자체 데이터센터나 클라우드의 4가지 벽 안에서 데이터를 이동하느라 분투하는 경우가 많다.

익스피디아(Expedia)의 검색 및 발견팀을 구성한 IT 리더 수부 알라마라주는 조직(‘조직의 경계 안에서 파편화된 책임과 책무’)과 데이터 자체(‘머신러닝을 포함하여 애널리틱스 사용례를 지원하기 위해 데이터를 수집하고 변환하는 결합 기술’)에 내재된 이유 때문에 데이터가 엉망으로 파편화되어 있다고 주장했다. 이 데이터도 개방적인 표준이나 형식이 있을 수 있지만 데이터를 시스템 A에서 시스템 B로 이동해야 하는 조직이 데이터보다 더 파편화된 경우도 있다.

모든 것이 제 자리를 찾지 못한다는 뜻은 아니다. ODI 등의 훌륭한 조직은 아파치 애로우(Apache Arrow, 인메모리 분석을 위한 교차언어 개발 플랫폼) 등의 오픈소스 프로젝트에도 참여하고 있다. 에어바이트(Airbyte, 오픈소스 데이터 통합) 또는 데이터브릭스(Databricks, 아파치 스파크(Apache Spark)에 ACID 트랜잭션을 적용하는 오픈소스 스토리지 레이어를 생성하는 오픈소스 델타 레이크(Delta Lake) OSS) 등의 기업도 같은 문제 해결에 노력하고 있다.

아직도 많은 조건이 필요하다는 느낌이다. 하지만 그 ‘더 많은 것’이 무엇인지 파악하는 것은 특정 기술을 구현하는 것만큼이나 중요할 것이다.
editor@itworld.co.kr 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.