하둡 질주의 이유
시장이 하둡보다 더 나은 것을 향해 이동하지 않는 이유는 무엇일까?
구글 클라우드 솔루션 컨설턴트인 산딥 파리크는 "하둡이 분산 컴퓨팅을 가능하게 해주는 폭넓은 프레임워크를 제공한다는 데 그 해답이 있다"고 말했다. 여기에서 '폭이 넓다'는 것은 광범위한 빅데이터 수요에 대처하기에 충분할 정도를 말한다.
'부가적 요소'의 부조화
하둡의 수많은 문제 가운데서도 가장 근본적인 문제는 아마도 하둡의 정의일 것이다. 예를 들어, 위키피디아는 "아파치 하둡(Apache Hadoop)은 일반적인 하드웨어로 구축된 컴퓨터 클러스터에서 매우 큰 데이터 집합을 분산 저장, 분산 처리하기 위해 자바로 만들어진 오픈소스 소프트웨어 프레임워크"로 정의했다.
그러나 문제는 '하둡'에 포함되는 하위 프로젝트들이 끊임없이 증가한다는 것이다. 프로제니 리눅스(Progeny Linux)의 CEO였던 이안 머독은 필자에게 "리눅스는 리눅스고 리눅스다"라고 말한 적이 있다. 레드 햇과 노벨 수세는 각 리눅스 배포판의 차이점을 주장할 수도 있겠지만 현실적으로 보면 매우 비슷했고, 지금도 마찬가지다.
하둡은 그렇지 않다. 하둡을 도입하기 위해 제품을 파악하는 기업은 하둡의 3대 배포판인 클라우데라(Cloudera), 호튼웍스(Hortonworks), 맵R(MapR)이 상당히 다르다는 사실을 발견하게 된다.
게다가 가트너 애널리스트 머브 아드리안은 이런 현상은 갈수록 심해지고 있다고 주장했다.
올해에도 하둡의 팽창은 계속된다. 이것이 중요한데, 상업적으로 지원되는 스택의 발전 양상을 정하는 것은 차별화와 포지셔닝이기 때문이다.
이런 팽창은 선택을 앞둔 주류 구매자들에게는 방향을 결정하는 데 도움이 된다. 현재 기업들은 상업적으로 지원되는 오픈소스 소프트웨어를 프로덕션 애플리케이션으로 선택하고 있다.
여기서 끊임없이 증가하는 프로젝트 스택을 통합(integration)하고 크로스 포팅(cross-porting)하고 백포팅(backporting)하고 지원(supporting)할 때 소요되는 비용은 배포업체가 모두 치러야 한다. 해당 배포업체가 이를 직접 '소유'하거나 단독으로 개발하지 않았음에도 말이다.
배포업체는 스택에 프로젝트를 추가한다고 해서 이를 선택한 기업에게 비용을 더 청구하지는 않는다.
이처럼 뒤얽힌 상황이 고객에게 미치는 영향은 보는 시각에 따라 다르다.
예를 들어 파리크는 "분산 컴퓨팅을 제외한 하둡의 모든 요소는 기본적으로 '부가적인 요소(icing)'들이며 다양한 버전을 지원하는 다양한 프로젝트로 혼재되어 있지만 모두 기본적으로 하는 일은 '저장'과 '연산'이다"고 말했다.
클라우데라 공동 창업자인 마이크 올슨은 "이런 복잡성 가운데 일부는 '실험에 열중하는' 커뮤니티 때문"이라고 말했다.
커뮤니티로 인해 더 복잡해질 수도 있지만 동시에 훨씬 더 강력해지게 된다. 올슨은 스파크(Spark)를 예로 들며 "여기서 '스파크가 하둡을 죽인다'는 속설이 왜 틀렸는지 볼 수 있다. 스파크는 하둡에 새로운 기능을 추가해 하둡을 더 강력하게 만들고 있다"고 말했다.
하둡에서 '부가적 요소(icing)'라는 말이 갖는 의미는 배포판마다 다를 수 있지만 가트너의 설명대로 "분산 네트워크에서 막대한 양의 데이터를 사용하기 위한 프레임워크"라는 하둡의 핵심적인 의미는 동일하다.
초보자에게 있어 하둡은 미로와 같지만 그럼에도 초보자들은 계속 몰려들고 있다.
관심 저하?, 그럴리가 없다
가트너는 최근 보고서에서 하둡에 대한 관심이 미온적이라고 전했지만 가트너의 설문 데이터는 전체 분위기를 반영하지 않을 수도 있다. 이 설문 데이터를 보면, 설문 대상자의 54%는 하둡에 대한 계획이 아예 없는 반면, 현재 프로덕션 또는 파일럿으로 구축 중인 비율은 26%에 불과하다.
가트너 애널리스트 닉 휴데커는 '지나침(overkill)'이 문제 가운데 하나라고 주장하며 "하둡은 기업들이 직면한 문제에 견주어 보면 과도한 솔루션이며 따라서 하둡 구현에 따르는 기회 비용이 예상되는 혜택에 비해 너무 높다"고 말했다.
그러나 하둡 채용 관련 데이터를 보면 분위기는 다르다. 하둡은 다른 주요 빅데이터 기술과 비교해 봐도 기업 내 수요가 폭발적이다.
필자는 카산드라(Cassandra)에 익숙하지 않지만 몽고DB(MongoDB)는 몇 년 동안 일한 경험이 있어 잘 안다. 수만에 이르는 기업들이 프로덕션에서 몽고DB를 운용한다. 몽고DB 다운로드도 수백만 건에 이른다.
그런데 하둡의 일자리 규모는 그것을 훨씬 더 앞지른다. 몽고DB와 카산드라에 대한 관심이 폭발적인 상황에서 하둡에 대한 '관심 저하'라는 말은 현실과는 거리가 있어 보인다.
변화하는 하둡의 복잡함, 그것이 하둡의 매력
처음 시작하는 초보자 관점에서 보면 하둡은 만능인 것처럼 보인다. 리얼리티마인(RealityMine)의 데이터 설계자인 이완 라이스는 "YARN과 HDFS의 조합은 분산 데이터로 거의 모든 작업을 실행할 수 있게 해주는 뛰어난 설계 빌딩 블록"이라고 말했다.
하지만 이것은 시작에 불과하다. 넷앱(NetApp) CTO 일원인 발 베르코비치는 "지금은 하둡이 가진 잠재력의 극히 일부분만 활용하고 있는 것"이라고 말했다.
이 잠재력은 끊임없이 변화하고 팽장하는 하둡의 얽히고설킨 프로젝트 아래에 묻혀 있다. 하둡 설립자인 더그 커팅은 필자에게 "경계가 흐릿하고 불분명하며 계속 변화하는, 진화하는 생태계다. 여기에 익숙해져야 한다. 하둡은 계속 변이한다"고 말했다.
이런 복잡함은 괴로움을 안겨다 주는 동시에 밝고 광활한 하둡의 미래를 이끌고 있다. 현재 개발업체들은 하둡 도입 경로를 매끄럽게 다듬는 데 주력하고 있다. 이들은 때때로 각기 다른 방향으로 나아가지만 그것도 긍정적인 요소가 된다.
트위터의 오픈소스 구루 크리스 아니슈칙이 말했듯 개발업체들의 경쟁은 기술을 발전시켜 그 기술이 뒤쳐지지 않도록 해주기 때문이다.
결론적으로 하둡은 복잡하다. 그러나 그 복잡함은 하둡이 가진 매력의 일부다. 기업들은 이 점을 인지하고 있으며 채용 데이터에서 볼 수 있듯이 결코 하둡을 기피하지 않는다. editor@itworld.co.kr
함께 보면 좋은 콘텐츠
Sponsored
Surfshark
“유료 VPN, 분명한 가치 있다” VPN 선택 가이드
ⓒ Surfshark VPN(가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 위험 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 서프샤크 VPN은 구독 요금제 가입 후 7일간의 무료 체험을 제공하고 있다. ⓒ Surfshark 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN ⓒ Surfshark 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.