2014.07.04

하둡의 성공으로 보안에 대한 관심 폭증

John P. Mello Jr. | CSO
빅데이터에 대해 이야기하다 보면 곧 하둡(Hadoop)에 대한 이야기로 이어진다. 이 아파치(Apache) 오픈소스 소프트웨어는 산처럼 쌓인 데이터로부터 정보를 처리하기 위해 상용 컴퓨터 클러스터(Cluster)를 조율하기 위해 사용되고 있다.

2005년에 더그 커팅과 마이크 카파렐라가 개발하고 장난감 코끼리의 이름을 딴 하둡은 이제서야 막 관심을 받기 시작했다.

TMR(Transparency Market Research)의 보고서에 따르면 하둡 시장은 향후 6년동안 54.7%의 연례 성장률을 기록해 2012년의 15억 달러에서 2018년에는 290억 달러로 성장할 것이라고 한다.

하둡의 향후 발전, 보안 문제 해결에 달려있다
하지만 이런 성장률을 실현하기 위해 하둡은 기업 시장에서 어느 정도 발전을 이뤄야 할 것이고, 이를 위해서는 보안 결함 문제를 해결해야 할 것이다.

하둡 배포판 개발업체인 클라우데라 제품 마케팅 책임자 클라크 패터슨은 "분명 많은 기관들이 하둡을 생산에 적용하는 시점에 도달해 있으며, 더 많은 사람들이 그 용도를 확대하고 싶어한다"며, "더 많은 데이터를 보관하고 이를 통해 더 많은 일을 하고 싶어한다"고 말했다.

패터슨은 "그렇다면 보안이 가장 큰 걱정거리가 될 것이다. 하둡이 기업 시장의 주류를 이루기 위해서는 반드시 필요하다"고 설명했다.

많은 초기 기술과 마찬가지로 하둡 개발자들에게 있어서 보안은 그리 중요한 것이 아니었다. 제타셋(Zettaset)의 창업자 겸 CTO 브라이언 크리스찬은 "보안을 염두에 두고 개발되지 않았다"며, "야후와 구글에 뿌리가 있기 때문에 보안보다는 구조화되지 않은 데이터 분석에 더 치중해 있었다"고 말했다.

또한 하둡은 방화벽 뒤에 숨어 보호를 받을 수 있을 것이라 생각했다. 패터슨은 "클러스터 자체에 대한 접근을 중심으로 하둡 생태계를 강조했었다. 하지만 누군가 보안에 대해 문제를 해결하자 클러스터 내부의 데이터에 대한 많은 문제가 발견됐다"고 설명했다.

이런 데이터는 해커들에게 탐스러운 공격 대상이 된다. 고급 위협 감지 업체 쓰렛트랙(ThreatTrack) 보안 정보 및 연구실 책임자 도디 글렌은 "데이터를 많이 모을수록 공격받을 요소들을 많이 짊어지고 있는 것"이라고 말했다.

비록 하둡 커뮤니티가 소프트웨어 코드의 보안 결함을 신속하게 발견하고 있지만 기업 시장에서의 성공을 위해 필요한 파일 접근 제어, 인증, 데이터 암호화 등을 추가하는 데는 느리다.

보안 결함을 찾아내기 위한 스캔 코드 제공업체인 커버러티(Coverity)의 제품 및 SaaS 책임자 잭 사모차는 "H베이스(HBase)는 괜찮은 프로젝트 가운데 하나이며 아파치 하둡은 매우 활발한 프로젝트"라며, "이 커뮤니티는 매우 헌신적이다"고 말했다. H베이스는 하둡이 사용하는 데이터베이스 소프트웨어다.

예를 들어, 해당 커뮤니티는 커버러티 스캔으로 발견한 H베이스의 보안 결함 220개를 해결했다.

해당 오픈소스 커뮤니티가 하둡에 보안 기능을 추가하는 동안, 제타셋(Zettaset), 맵알(MapR), 클라우데라 등의 개발업체들은 이런 기능을 소프트웨어에 적용하고 있다. 제타셋의 크리스찬은 "커뮤니티가 이런 것들을 제공하는데 약간의 시간이 소요됐다"며, "우리는 커뮤니티에서 진행하는 프로젝트보다 약 18개월 앞서 있다"고 진단했다.

하둡에 바라는 보안, 파일 접근 제어
기업들이 하둡에서 바라는 보안 기능 가운데 하나는 파일 접근 제어다. 기업들은 기업이 정한 기준에 따라 누가 무엇을 볼 수 있는지 결정할 수 있는 능력을 원한다. 오픈소스 하둡에는 이런 기능이 빠져 있다.

제타셋의 소프트웨어는 클라우데라와 호튼웍스가 제공하는 것 등 주요 하둡 배포판에서 구동하며 접근 정책을 위해 액티브 디렉토리(Active Directory)와 LDAP 서버 등 기존의 자원에 접근할 수 있도록 개발됐다. 크리스찬은 "사람들은 이미 이런 정책을 개발했기 때문에 이미 존재하는 것을 다시 개발한다는 것이 우스워 보인다"고 설명했다.

그럴 수도 있지만 접근 제어를 다시 정의하고 하둡 스탭을 더욱 깊숙한 곳에 묻어야 한다고 생각하는 사람도 있다. 맵알의 제품 관리 부사장 토머 쉬런은 "아키텍처의 가장 낮은 레벨에서 파일 접근을 실시해야 한다"고 말했다.

쉬런은 "누군가를 더 높은 레벨에서 제한한다 하더라도 낮은 레벨에 접근할 수 있기 때문에 스택에서 접근 제어를 더욱 높일 수 없으므로 아무 것도 보호하지 않는 것이나 마찬가지"라고 설명했다.

쉬런은 "이는 앞 문을 잠그고 뒷 문과 창문을 열어 두는 것과 같다"고 비유했다.

조직들은 하둡에서 누가 무엇에 접근할 수 있는 지를 제어할 뿐 아니라 사용자의 신원도 확인하고 싶어한다. 이를 할 수 있는 한 가지 방법은 널리 사용되는 인증 기술인 커베로스(Kerberos)를 이용하는 것이다.

일부 배포판 개발업체가 커베로스를 지원하고 있기는 하지만 대부분 자체 인증 기능을 적용하고 있다. 쉬란은 "많은 고객이 커베로스를 원치 않는다"며, "너무 복잡하고 운영 악몽과도 같다"고 토로했다.

쉬란은 안전한 인증을 위한 수단이 없는 기관들은 하둡에 민감한 정보를 저장하기를 두려워했다고 말했다. 쉬란은 "이 때문에 적용 범위가 제한됐다. 보안이 없어도 하둡은 여전히 유용하지만 그 적용 범위가 제한된다"고 덧붙였다.

이 문제를 해결하기 위해 맵알은 자사의 하둡 배포판에 커베로스의 대안으로 네이티브(Native) 인증 체제를 포함시켰다. SSH와 마찬가지로 이 시스템은 액티브 디렉토리 또는 LDAP 룩업(Look-up)을 인증서, 사용자명, 암호와 연계시켜 안전하면서도 간단한 방법으로 사용자를 인증한다.

제타셋은 커베로스의 대안을 제시하기보다는 인증 소프트웨어의 설치를 간소화했다. 크리스찬은 "몇 번의 마우스 클릭으로 커베로스를 구성할 수 있다"고 말했다. 크리스찬은 "하나의 배포판에 115페이지의 문서와 1시간 분량의 교육이 필요하다"고.

암호화는 기업들이 하둡에 민감한 데이터를 저장할 수 있을 정도로 신뢰하기 전에 필요한 또 다른 기능이다. 예를 들어, 맵알은 재난 복구 시스템으로 전송되는 데이터를 포함해 클러스터 자신과 클러스터들 사이의 노드(Node) 내에서 고객으로부터 하둡 클러스터로 전송되는 모든 데이터를 암호화한다.

클라우데라 같은 다른 배포판과 제타셋과 같은 소프트웨어 프로그램은 하둡 클러스터 등에 저장되어 있는 데이터도 암호화한다. 클라우데라는 한 걸음 더 나아가 클러스터의 일부이지만 하둡 파일 시스템에는 포함되어 있지 않은 H베이스 메타스토어(Metastore) 등과 같은 클러스터의 모든 메타데이터를 암호화한다.

또한 클라우데라의 암호화 체계는 기관이 자체 애플리케이션을 '파괴하는' 암호화에 대해 가질 수 있는 우려를 해결했다.

클라우데라의 제품 관리 이사 샘 헤이우드는 "이는 투명하면서도 정적인 데이터 암호화"라며, "애플리케이션을 변경할 필요가 없다"고 설명했다.

애플리케이션은 정상적인 방식으로 파일 시스템에 접근하지만 디스크에서 암호화된 데이터는 애플리케이션에 제공되기 전에 평문으로 변환된다.

평문에는 보안 위험이 존재하기 때문에 클라우데라는 프로세스를 위한 일련의 접근 제어를 포함하고 있다.

최근 클라우데라가 인수한 가짱(Gazzang)의 마케팅 부사장이었던 헤이우드는 "평문의 데이터에 접근할 수 있는 프로세스는 제한적"이라며, "허용 목록에 포함되어 있지 않은 프로세스는 루트(Root) 또는 스도(Pseudo) 명령이라 하더라도 데이터에 접근할 수 없다"고 말했다.

클라우데라의 패터슨은 오픈소스 커뮤니티와 개발자들이 기업 내에서 널리 사용하기 위해 필요한 보안 기능을 하둡에 적용하면서 시장에서 해당 기술의 발전을 저해할 수 있는 문제점에 대해 경고했다.

패터슨은 배치(Batch) 작업 부하, SoH(SQL on Hadoop), 기계 학습 등 데이터 세트를 입력하는 여러 작업 부하가 존재한다고 설명했다.

페터슨은 "각 작업 부하가 결국 보안에 대한 자체적인 접근방식을 갖게 될 위험이 있다"며, "이런 분열을 막고 배포판의 코드에 보안을 적용해 통일된 방식으로 관리할 수 있도록 노력하고 있다"고 말했다. editor@itworld.co.kr


2014.07.04

하둡의 성공으로 보안에 대한 관심 폭증

John P. Mello Jr. | CSO
빅데이터에 대해 이야기하다 보면 곧 하둡(Hadoop)에 대한 이야기로 이어진다. 이 아파치(Apache) 오픈소스 소프트웨어는 산처럼 쌓인 데이터로부터 정보를 처리하기 위해 상용 컴퓨터 클러스터(Cluster)를 조율하기 위해 사용되고 있다.

2005년에 더그 커팅과 마이크 카파렐라가 개발하고 장난감 코끼리의 이름을 딴 하둡은 이제서야 막 관심을 받기 시작했다.

TMR(Transparency Market Research)의 보고서에 따르면 하둡 시장은 향후 6년동안 54.7%의 연례 성장률을 기록해 2012년의 15억 달러에서 2018년에는 290억 달러로 성장할 것이라고 한다.

하둡의 향후 발전, 보안 문제 해결에 달려있다
하지만 이런 성장률을 실현하기 위해 하둡은 기업 시장에서 어느 정도 발전을 이뤄야 할 것이고, 이를 위해서는 보안 결함 문제를 해결해야 할 것이다.

하둡 배포판 개발업체인 클라우데라 제품 마케팅 책임자 클라크 패터슨은 "분명 많은 기관들이 하둡을 생산에 적용하는 시점에 도달해 있으며, 더 많은 사람들이 그 용도를 확대하고 싶어한다"며, "더 많은 데이터를 보관하고 이를 통해 더 많은 일을 하고 싶어한다"고 말했다.

패터슨은 "그렇다면 보안이 가장 큰 걱정거리가 될 것이다. 하둡이 기업 시장의 주류를 이루기 위해서는 반드시 필요하다"고 설명했다.

많은 초기 기술과 마찬가지로 하둡 개발자들에게 있어서 보안은 그리 중요한 것이 아니었다. 제타셋(Zettaset)의 창업자 겸 CTO 브라이언 크리스찬은 "보안을 염두에 두고 개발되지 않았다"며, "야후와 구글에 뿌리가 있기 때문에 보안보다는 구조화되지 않은 데이터 분석에 더 치중해 있었다"고 말했다.

또한 하둡은 방화벽 뒤에 숨어 보호를 받을 수 있을 것이라 생각했다. 패터슨은 "클러스터 자체에 대한 접근을 중심으로 하둡 생태계를 강조했었다. 하지만 누군가 보안에 대해 문제를 해결하자 클러스터 내부의 데이터에 대한 많은 문제가 발견됐다"고 설명했다.

이런 데이터는 해커들에게 탐스러운 공격 대상이 된다. 고급 위협 감지 업체 쓰렛트랙(ThreatTrack) 보안 정보 및 연구실 책임자 도디 글렌은 "데이터를 많이 모을수록 공격받을 요소들을 많이 짊어지고 있는 것"이라고 말했다.

비록 하둡 커뮤니티가 소프트웨어 코드의 보안 결함을 신속하게 발견하고 있지만 기업 시장에서의 성공을 위해 필요한 파일 접근 제어, 인증, 데이터 암호화 등을 추가하는 데는 느리다.

보안 결함을 찾아내기 위한 스캔 코드 제공업체인 커버러티(Coverity)의 제품 및 SaaS 책임자 잭 사모차는 "H베이스(HBase)는 괜찮은 프로젝트 가운데 하나이며 아파치 하둡은 매우 활발한 프로젝트"라며, "이 커뮤니티는 매우 헌신적이다"고 말했다. H베이스는 하둡이 사용하는 데이터베이스 소프트웨어다.

예를 들어, 해당 커뮤니티는 커버러티 스캔으로 발견한 H베이스의 보안 결함 220개를 해결했다.

해당 오픈소스 커뮤니티가 하둡에 보안 기능을 추가하는 동안, 제타셋(Zettaset), 맵알(MapR), 클라우데라 등의 개발업체들은 이런 기능을 소프트웨어에 적용하고 있다. 제타셋의 크리스찬은 "커뮤니티가 이런 것들을 제공하는데 약간의 시간이 소요됐다"며, "우리는 커뮤니티에서 진행하는 프로젝트보다 약 18개월 앞서 있다"고 진단했다.

하둡에 바라는 보안, 파일 접근 제어
기업들이 하둡에서 바라는 보안 기능 가운데 하나는 파일 접근 제어다. 기업들은 기업이 정한 기준에 따라 누가 무엇을 볼 수 있는지 결정할 수 있는 능력을 원한다. 오픈소스 하둡에는 이런 기능이 빠져 있다.

제타셋의 소프트웨어는 클라우데라와 호튼웍스가 제공하는 것 등 주요 하둡 배포판에서 구동하며 접근 정책을 위해 액티브 디렉토리(Active Directory)와 LDAP 서버 등 기존의 자원에 접근할 수 있도록 개발됐다. 크리스찬은 "사람들은 이미 이런 정책을 개발했기 때문에 이미 존재하는 것을 다시 개발한다는 것이 우스워 보인다"고 설명했다.

그럴 수도 있지만 접근 제어를 다시 정의하고 하둡 스탭을 더욱 깊숙한 곳에 묻어야 한다고 생각하는 사람도 있다. 맵알의 제품 관리 부사장 토머 쉬런은 "아키텍처의 가장 낮은 레벨에서 파일 접근을 실시해야 한다"고 말했다.

쉬런은 "누군가를 더 높은 레벨에서 제한한다 하더라도 낮은 레벨에 접근할 수 있기 때문에 스택에서 접근 제어를 더욱 높일 수 없으므로 아무 것도 보호하지 않는 것이나 마찬가지"라고 설명했다.

쉬런은 "이는 앞 문을 잠그고 뒷 문과 창문을 열어 두는 것과 같다"고 비유했다.

조직들은 하둡에서 누가 무엇에 접근할 수 있는 지를 제어할 뿐 아니라 사용자의 신원도 확인하고 싶어한다. 이를 할 수 있는 한 가지 방법은 널리 사용되는 인증 기술인 커베로스(Kerberos)를 이용하는 것이다.

일부 배포판 개발업체가 커베로스를 지원하고 있기는 하지만 대부분 자체 인증 기능을 적용하고 있다. 쉬란은 "많은 고객이 커베로스를 원치 않는다"며, "너무 복잡하고 운영 악몽과도 같다"고 토로했다.

쉬란은 안전한 인증을 위한 수단이 없는 기관들은 하둡에 민감한 정보를 저장하기를 두려워했다고 말했다. 쉬란은 "이 때문에 적용 범위가 제한됐다. 보안이 없어도 하둡은 여전히 유용하지만 그 적용 범위가 제한된다"고 덧붙였다.

이 문제를 해결하기 위해 맵알은 자사의 하둡 배포판에 커베로스의 대안으로 네이티브(Native) 인증 체제를 포함시켰다. SSH와 마찬가지로 이 시스템은 액티브 디렉토리 또는 LDAP 룩업(Look-up)을 인증서, 사용자명, 암호와 연계시켜 안전하면서도 간단한 방법으로 사용자를 인증한다.

제타셋은 커베로스의 대안을 제시하기보다는 인증 소프트웨어의 설치를 간소화했다. 크리스찬은 "몇 번의 마우스 클릭으로 커베로스를 구성할 수 있다"고 말했다. 크리스찬은 "하나의 배포판에 115페이지의 문서와 1시간 분량의 교육이 필요하다"고.

암호화는 기업들이 하둡에 민감한 데이터를 저장할 수 있을 정도로 신뢰하기 전에 필요한 또 다른 기능이다. 예를 들어, 맵알은 재난 복구 시스템으로 전송되는 데이터를 포함해 클러스터 자신과 클러스터들 사이의 노드(Node) 내에서 고객으로부터 하둡 클러스터로 전송되는 모든 데이터를 암호화한다.

클라우데라 같은 다른 배포판과 제타셋과 같은 소프트웨어 프로그램은 하둡 클러스터 등에 저장되어 있는 데이터도 암호화한다. 클라우데라는 한 걸음 더 나아가 클러스터의 일부이지만 하둡 파일 시스템에는 포함되어 있지 않은 H베이스 메타스토어(Metastore) 등과 같은 클러스터의 모든 메타데이터를 암호화한다.

또한 클라우데라의 암호화 체계는 기관이 자체 애플리케이션을 '파괴하는' 암호화에 대해 가질 수 있는 우려를 해결했다.

클라우데라의 제품 관리 이사 샘 헤이우드는 "이는 투명하면서도 정적인 데이터 암호화"라며, "애플리케이션을 변경할 필요가 없다"고 설명했다.

애플리케이션은 정상적인 방식으로 파일 시스템에 접근하지만 디스크에서 암호화된 데이터는 애플리케이션에 제공되기 전에 평문으로 변환된다.

평문에는 보안 위험이 존재하기 때문에 클라우데라는 프로세스를 위한 일련의 접근 제어를 포함하고 있다.

최근 클라우데라가 인수한 가짱(Gazzang)의 마케팅 부사장이었던 헤이우드는 "평문의 데이터에 접근할 수 있는 프로세스는 제한적"이라며, "허용 목록에 포함되어 있지 않은 프로세스는 루트(Root) 또는 스도(Pseudo) 명령이라 하더라도 데이터에 접근할 수 없다"고 말했다.

클라우데라의 패터슨은 오픈소스 커뮤니티와 개발자들이 기업 내에서 널리 사용하기 위해 필요한 보안 기능을 하둡에 적용하면서 시장에서 해당 기술의 발전을 저해할 수 있는 문제점에 대해 경고했다.

패터슨은 배치(Batch) 작업 부하, SoH(SQL on Hadoop), 기계 학습 등 데이터 세트를 입력하는 여러 작업 부하가 존재한다고 설명했다.

페터슨은 "각 작업 부하가 결국 보안에 대한 자체적인 접근방식을 갖게 될 위험이 있다"며, "이런 분열을 막고 배포판의 코드에 보안을 적용해 통일된 방식으로 관리할 수 있도록 노력하고 있다"고 말했다. editor@itworld.co.kr


X