2012.10.30

빅데이터월드 2012 | 다음 윤석찬 팀장 "오픈소스 내재화 통해 실시간 분석으로"

편집부 | ITWorld
빅 데이터 시대를 맞이하면서 오픈 소스 기반의 거의 실시간 데이터 분석이 가능한 하둡은 이미 데이터 분석 산업을 변화시키고 있다. 하둡의 열풍은 2000년대 리눅스가 웹서비스를 주도해 온 것과 거의 유사한 상황이다.

다음 커뮤니케이션은 국내에서 가장 큰 아파치 하둡 클러스터 가운데 하나이며, 많은 웹 개발자들이 하둡의 여러 분야에서 빅 데이터를 활용해오고 있다. 오픈 소스 마니아이자 국내에서 하둡을 가장 많이 경험해 본 전문가 가운데 한 사람인 다음 커뮤니케이션 DNALab 윤석찬 팀장은 이미 하둡은 오픈 소스 이상의, 플랫폼으로서의 자리를 잡았다고 평가했다.

다음에서 현재 하둡을 어떻게 활용하고 있는지, 빅 데이터 분석과 저장은 어떻게 하고 있는지 알아보고, 빅 데이터, 스몰 데이터를 어떻게 비즈니스로 연결시키고 있는지 파악해보자. 
한편 윤석찬 팀장은 2012년 11월 7일에 개최되는 빅 데이터 월드 2012에서 다음의 빅 데이터 활용 사례에서 좀더 자세한 내용을 설파할 예정이다. 

윤석찬 팀장은 '오픈 소스 전도사', '모질라 커뮤니티 리더', 'IT 칼럼리스트', 'DNALab 팀장' 등 지칭하는 호칭이 다양하다. 자신의 트위터 계정에는 자신을 '변화와 혁신을 사랑하는 웹 열정가'라고 소개하는데, 특별한 이유가 있는지?
운이 좋게도 호기심이 왕성한 대학생 시절에 인터넷의 성장기를 보냈다. 이후 학교를 벗어나 웹 기술 커뮤니티에서 다양한 사람을 만나면서 새로운 신세계를 접했는데, IT 업계에 일하면서 변화에 민감하고 자신을 혁신하지 않으면 이 일을 해나갈 수 없다고 깨달았다. 어떤 일이든지 자신이 하는 일이 가치 있고 열정을 가져야만 가능하다. 학생 시절부터 직장인이 된 지금까지 하는 일에 가치를 부여할 만한 일을 계속해서 찾아왔는데, 모질라(Mozilla)와 웹 표준 커뮤니티 참여, 블로그 글쓰기, 그리고 회사에서 다음의 데이터를 개방하고 내/외부와 제휴 협력을 이끌어 나가는 일까지 다 해볼 수 있는 기회를 얻었다. 데이터가 더욱 커지는 현재 상황에서도 더 많은 데이터가 개방되고 재사용되어 나에게 쓸모 없는 것이 다른 사람에게는 가치가 있도록 하는 일에 관심이 많다.
 
국내 최초로 대학에서 대학생들에게 오픈 소스에 대한 이해와 커뮤니티 참여 프로그램을 5년 동안 이어오고 있다. 오픈 소스에 대한 열정의 배경이 궁금하다. 
오픈 소스 소프트웨어 운동은 우리가 살아가는 삶의 근본적은 근원에서 나왔다. 어른들로부터 사탕 하나라도 서로 나눠 먹도록 배웠고 '배워서 남 주자'라는 말까지 나올 정도로 우리네 삶과 닮았다. 오픈 소스는 소스 코드를 공개하는 것 이상의 가치가 있는데, 소프트웨어 개발자로서의 삶에 절대적으로 중요한 동기 부여 수단이다. 최근에 소프트웨어 전공자가 줄어드는 시점에서 학생에게 이런 점을 알려주고 싶었다. 다행히 회사가 제주로 이전하면서 가까이에 있는 제주대학에 학생과 산학협력을 하면서 이런 계기를 가질 수 있었다. 2007년부터 시작된 오픈 소스 강의는 단순히 개발과 도구를 가르치는 수준에서 벗어나 실제로 국내의 많은 오픈 소스 커뮤니티에 자원 봉사자를 공급하는 역할도 하고 있다. 최근 들어 국내 여러 대학에서 커리큘럼에 관심을 가져 주고 문의하거나 실제로 유사 과목이 개설되고 있다.
 
다음이 가진 데이터 량은 어느 정도인가? 다음의 데이터 현황에 대해 간단히 설명해 달라. 
다음은 매일 1,000만 명 이상이 방문하는 웹사이트다. 메일, 카페, 뉴스, 검색 등 다양한 서비스가 있으며, 특히 아고라, 미즈넷, tv팟 같은 사용자 콘텐츠와 국내 최고의 블로그 서비스인 티스토리를 가지고 있다. 방문 로그는 압축해서 하루 70TB정도가 쌓이고 있다.
 
데이터 분석과 관련한 전담 부서가 있는가? 아니면 여러 부서에 빅 데이터 관련 부서가 분산되어 협력하고 있는가? 
과거에는 대부분 데이터마이닝과 분석팀에서 데이터를 분석하는 일을 했지만, 최근 하둡(Hadoop)과 NoSQL 같은 오픈 소스 기반에 데이터 분석과 저장 스토리지의 성장으로 인해 각 서비스를 다루는 개발팀에서 직접 데이터를 분석하고 있다. 다음은 원래부터 오픈 소스 기반의 인프라와 웹 개발을 해 왔던 기업으로 개발자의 오픈 소스 내재화 속도는 다른 여타 소프트웨어 업체보다 빠르며 이런 학습 능력에 대해서도 투자하고 있다. 최근 비즈니스와 관련된 대용량 분석의 경우, 데이터 중복성 비용을 해결하고자 서버팜(Server Farm)을 합치고 이에 대한 노하우를 공유하는 태스크 포스 조직이 구성됐다. 그러나 거의 대부분 개발팀이 자체적으로 분석을 진행하고 있는 점은 크게 바뀌지 않았다.
 
빅 데이터에 관련해 다음 내부에서 현재 가장 큰 화두와 도전 과제는 무엇인가? 
최근 소셜 웹 및 모바일 단말기가 늘어나면서 사용자의 데이터도 급격히 증가하고 있다. 마이피플 같은 메시징 서비스나 다음 클라우드 같은 대용량 사용자 데이터뿐만 아니라 모바일 Ad@m과 같은 광고 시스템의 월 페이지뷰(PV)가 150억 건이 넘어섰다. 데이터 분석을 통해 광고 수익을 더 올릴 수 있는 각종 추천 알고리즘 도입과 이를 바로 반영할 수 있는 실시간 데이터 분석 같은 부분이 가장 큰 도전 과제 가운데 하나다.
 
다음에게 '빅 데이터'란 어떤 의미인가? 향후 다음이 빅 데이터를 통해 어떻게 변모할 것으로 예상하나?
다음은 처음부터 사용자 기반의 데이터 기업이었다. 웹 2.0이 데이터의 중요성에 대해 각인하기 시작했다면, 빅 데이터는 이제 데이터를 모아 이를 수익으로 창출하고자 하는 작은 시작에 불과하다. 기존의 비즈니스를 개선하고 데이터 그 자체가 비즈니스를 지속 가능하도록 만들 수 있어야 한다고 본다. 이런 점에서 빅 데이터 시장은 단지 데이터를 많이 모을 수 있는 기업뿐만 아니라 가능성이 있는 '스몰 데이터'를 가진 기업에도 기회가 열려 있다고 본다.
 
다음은 비정형 데이터를 처리하기 위해 하둡을 활용하고 있다. 이 외에 오픈 소스의 활용도에 대해 알려달라.
하둡은 이미 오픈 소스 그 이상의 플랫폼으로서 위치를 갖춘 것으로 본다. 리눅스가 오늘날 안드로이드를 만든 것처럼 더 많은 애플리케이션이 하둡 위에 올라갈 것으로 예상한다. 따라서 오픈 소스의 활용도는 빅 데이터 기술 플랫폼의 생태계가 어떻게 바뀔 것인지에 달려 있다. 최근 들어 오픈 소스의 발길이 닿지 않았던 분석 도구나 시각화 도구로 확대되고 있다. 예를 들어, R이나 D3.JS 같은 것이 그렇다. 무엇보다 대용량 실시간 분석이 중요해짐에 따라 상용 인메모리 솔루션에 필적하는 스톰(Storm)이나 드레멜(Dremel) 같은 오픈 소스가 나오고 있다.
 
최근 블로그에는 '데이터 과학자(Data Scientist)는 기존 데이터 마이너의 업그레이드 측면에서 중요하지만, 더 중요한 것은 개발자들이 직접 데이터를 분석하는 데이터 개발자(Data Developer)의 확대가 더 중요하다'고 게재한 바 있다. 도전하는 개발자에게 도움이 될 이야기 같은데, 그들에게 한 마디 조언을 해준다면?
소프트웨어 개발자는 원래 계산적 사고와 분석적 사고를 함께 하도록 훈련받았다. 따라서, 이 두 가지를 제대로 하고 있다면 빅 데이터 기술을 통한 분석에 대해 큰 걱정을 할 필요는 없다. 분석적 사고를 위한 노력이 더 필요하다면 이와 관련해 좀더 공부하기를 바란다. 기존 데이터마이너보다 더 빠르게 이해할 수 있다. 앞서 계속 강조해 온 대로 ‘오픈 소스 내재화’에 대한 노력을 계속해야 한다. 새로 나온 것을 설치해 보고, 써보고, 튜닝해보고, 긱(geek)적인 행동을 몸에 익히는 것이 중요하다. 인터넷을 검색해 보면 대용량 테스트 데이터 세트는 널려있다. 회사가 오픈 소스를 지원해 주지 않아 데이터 규모가 작다라는 핑계는 자기 합리화에 불과하다. 자기의 몸값은 자기가 스스로 올리는 것이다.
 
국내 개발자를 대표하는 한 사람으로서 국내 빅 데이터 시장 성장을 저해하는 가장 큰 요소는 무엇이며, 이를 해결하기 위해 가장 필요한 점은 무엇이라 생각하는가?
산업 생태계 측면에서는 상용 개발업체들의 독식 현상이 심하다는 것이다. SI 업계나 대형 프로젝트들이 외산 개발업체에 의존하고 있다. 따라서 공공 프로젝트부터 오픈 소스 기반의 솔루션을 채택하도록 그 비율을 강제할 필요가 있다. 미 연방정부에서도 오픈 소스 활용을 늘이는 법안을 통과시킨 적이 있다. 유독 우리나라에만 외산 개발업체들의 기술팀보다 영업팀 많다는 것은 그만큼 산업 생태계가 기술 위주로 움직이지 않고 있다는 증거다. 기업 입장에서는 경영자들이 낮은 데이터 인식도 문제다. 작은 국내 시장에서 굳이 오픈 소스를 내재화하는 비용을 들여 구글이나 페이스북 같은 글로벌 업체들이 쓰는 데이터 플랫폼을 쓸 필요가 있을지 반문한다. 지금 빨리 할 수 있는 상용 개발업체의 솔루션을 원하는 데, 데이터는 쌓이면 쌓일수록 커지는 것이고 더 빠르게 성장할 수 있는 기회와 기반을 놓치는 우를 범할 수 있다. 소프트웨어 개발자보다는 기업의 인식과 IT 산업 생태계의 변화가 빅 데이터 산업에도 영향을 미칠 수 밖에 없다는 생각이다.
 
한편 한국 IDG가 주최하는 빅 데이터 월드 2012 컨퍼런스에서는 아마존 데이터 전문가인 조 지글러를 통해 빅 데이터와 클라우드와의 시너지를 만나볼 수 있으며, 3억 회원의 온라인 구매 패턴을 분석하는 이베이의 빅 데이터 운영 관리 사례와 국내외 빅 데이터 리더들의 열띤 강연이 펼쳐질 예정이다. editor@itworld.co.kr
2012.10.30

빅데이터월드 2012 | 다음 윤석찬 팀장 "오픈소스 내재화 통해 실시간 분석으로"

편집부 | ITWorld
빅 데이터 시대를 맞이하면서 오픈 소스 기반의 거의 실시간 데이터 분석이 가능한 하둡은 이미 데이터 분석 산업을 변화시키고 있다. 하둡의 열풍은 2000년대 리눅스가 웹서비스를 주도해 온 것과 거의 유사한 상황이다.

다음 커뮤니케이션은 국내에서 가장 큰 아파치 하둡 클러스터 가운데 하나이며, 많은 웹 개발자들이 하둡의 여러 분야에서 빅 데이터를 활용해오고 있다. 오픈 소스 마니아이자 국내에서 하둡을 가장 많이 경험해 본 전문가 가운데 한 사람인 다음 커뮤니케이션 DNALab 윤석찬 팀장은 이미 하둡은 오픈 소스 이상의, 플랫폼으로서의 자리를 잡았다고 평가했다.

다음에서 현재 하둡을 어떻게 활용하고 있는지, 빅 데이터 분석과 저장은 어떻게 하고 있는지 알아보고, 빅 데이터, 스몰 데이터를 어떻게 비즈니스로 연결시키고 있는지 파악해보자. 
한편 윤석찬 팀장은 2012년 11월 7일에 개최되는 빅 데이터 월드 2012에서 다음의 빅 데이터 활용 사례에서 좀더 자세한 내용을 설파할 예정이다. 

윤석찬 팀장은 '오픈 소스 전도사', '모질라 커뮤니티 리더', 'IT 칼럼리스트', 'DNALab 팀장' 등 지칭하는 호칭이 다양하다. 자신의 트위터 계정에는 자신을 '변화와 혁신을 사랑하는 웹 열정가'라고 소개하는데, 특별한 이유가 있는지?
운이 좋게도 호기심이 왕성한 대학생 시절에 인터넷의 성장기를 보냈다. 이후 학교를 벗어나 웹 기술 커뮤니티에서 다양한 사람을 만나면서 새로운 신세계를 접했는데, IT 업계에 일하면서 변화에 민감하고 자신을 혁신하지 않으면 이 일을 해나갈 수 없다고 깨달았다. 어떤 일이든지 자신이 하는 일이 가치 있고 열정을 가져야만 가능하다. 학생 시절부터 직장인이 된 지금까지 하는 일에 가치를 부여할 만한 일을 계속해서 찾아왔는데, 모질라(Mozilla)와 웹 표준 커뮤니티 참여, 블로그 글쓰기, 그리고 회사에서 다음의 데이터를 개방하고 내/외부와 제휴 협력을 이끌어 나가는 일까지 다 해볼 수 있는 기회를 얻었다. 데이터가 더욱 커지는 현재 상황에서도 더 많은 데이터가 개방되고 재사용되어 나에게 쓸모 없는 것이 다른 사람에게는 가치가 있도록 하는 일에 관심이 많다.
 
국내 최초로 대학에서 대학생들에게 오픈 소스에 대한 이해와 커뮤니티 참여 프로그램을 5년 동안 이어오고 있다. 오픈 소스에 대한 열정의 배경이 궁금하다. 
오픈 소스 소프트웨어 운동은 우리가 살아가는 삶의 근본적은 근원에서 나왔다. 어른들로부터 사탕 하나라도 서로 나눠 먹도록 배웠고 '배워서 남 주자'라는 말까지 나올 정도로 우리네 삶과 닮았다. 오픈 소스는 소스 코드를 공개하는 것 이상의 가치가 있는데, 소프트웨어 개발자로서의 삶에 절대적으로 중요한 동기 부여 수단이다. 최근에 소프트웨어 전공자가 줄어드는 시점에서 학생에게 이런 점을 알려주고 싶었다. 다행히 회사가 제주로 이전하면서 가까이에 있는 제주대학에 학생과 산학협력을 하면서 이런 계기를 가질 수 있었다. 2007년부터 시작된 오픈 소스 강의는 단순히 개발과 도구를 가르치는 수준에서 벗어나 실제로 국내의 많은 오픈 소스 커뮤니티에 자원 봉사자를 공급하는 역할도 하고 있다. 최근 들어 국내 여러 대학에서 커리큘럼에 관심을 가져 주고 문의하거나 실제로 유사 과목이 개설되고 있다.
 
다음이 가진 데이터 량은 어느 정도인가? 다음의 데이터 현황에 대해 간단히 설명해 달라. 
다음은 매일 1,000만 명 이상이 방문하는 웹사이트다. 메일, 카페, 뉴스, 검색 등 다양한 서비스가 있으며, 특히 아고라, 미즈넷, tv팟 같은 사용자 콘텐츠와 국내 최고의 블로그 서비스인 티스토리를 가지고 있다. 방문 로그는 압축해서 하루 70TB정도가 쌓이고 있다.
 
데이터 분석과 관련한 전담 부서가 있는가? 아니면 여러 부서에 빅 데이터 관련 부서가 분산되어 협력하고 있는가? 
과거에는 대부분 데이터마이닝과 분석팀에서 데이터를 분석하는 일을 했지만, 최근 하둡(Hadoop)과 NoSQL 같은 오픈 소스 기반에 데이터 분석과 저장 스토리지의 성장으로 인해 각 서비스를 다루는 개발팀에서 직접 데이터를 분석하고 있다. 다음은 원래부터 오픈 소스 기반의 인프라와 웹 개발을 해 왔던 기업으로 개발자의 오픈 소스 내재화 속도는 다른 여타 소프트웨어 업체보다 빠르며 이런 학습 능력에 대해서도 투자하고 있다. 최근 비즈니스와 관련된 대용량 분석의 경우, 데이터 중복성 비용을 해결하고자 서버팜(Server Farm)을 합치고 이에 대한 노하우를 공유하는 태스크 포스 조직이 구성됐다. 그러나 거의 대부분 개발팀이 자체적으로 분석을 진행하고 있는 점은 크게 바뀌지 않았다.
 
빅 데이터에 관련해 다음 내부에서 현재 가장 큰 화두와 도전 과제는 무엇인가? 
최근 소셜 웹 및 모바일 단말기가 늘어나면서 사용자의 데이터도 급격히 증가하고 있다. 마이피플 같은 메시징 서비스나 다음 클라우드 같은 대용량 사용자 데이터뿐만 아니라 모바일 Ad@m과 같은 광고 시스템의 월 페이지뷰(PV)가 150억 건이 넘어섰다. 데이터 분석을 통해 광고 수익을 더 올릴 수 있는 각종 추천 알고리즘 도입과 이를 바로 반영할 수 있는 실시간 데이터 분석 같은 부분이 가장 큰 도전 과제 가운데 하나다.
 
다음에게 '빅 데이터'란 어떤 의미인가? 향후 다음이 빅 데이터를 통해 어떻게 변모할 것으로 예상하나?
다음은 처음부터 사용자 기반의 데이터 기업이었다. 웹 2.0이 데이터의 중요성에 대해 각인하기 시작했다면, 빅 데이터는 이제 데이터를 모아 이를 수익으로 창출하고자 하는 작은 시작에 불과하다. 기존의 비즈니스를 개선하고 데이터 그 자체가 비즈니스를 지속 가능하도록 만들 수 있어야 한다고 본다. 이런 점에서 빅 데이터 시장은 단지 데이터를 많이 모을 수 있는 기업뿐만 아니라 가능성이 있는 '스몰 데이터'를 가진 기업에도 기회가 열려 있다고 본다.
 
다음은 비정형 데이터를 처리하기 위해 하둡을 활용하고 있다. 이 외에 오픈 소스의 활용도에 대해 알려달라.
하둡은 이미 오픈 소스 그 이상의 플랫폼으로서 위치를 갖춘 것으로 본다. 리눅스가 오늘날 안드로이드를 만든 것처럼 더 많은 애플리케이션이 하둡 위에 올라갈 것으로 예상한다. 따라서 오픈 소스의 활용도는 빅 데이터 기술 플랫폼의 생태계가 어떻게 바뀔 것인지에 달려 있다. 최근 들어 오픈 소스의 발길이 닿지 않았던 분석 도구나 시각화 도구로 확대되고 있다. 예를 들어, R이나 D3.JS 같은 것이 그렇다. 무엇보다 대용량 실시간 분석이 중요해짐에 따라 상용 인메모리 솔루션에 필적하는 스톰(Storm)이나 드레멜(Dremel) 같은 오픈 소스가 나오고 있다.
 
최근 블로그에는 '데이터 과학자(Data Scientist)는 기존 데이터 마이너의 업그레이드 측면에서 중요하지만, 더 중요한 것은 개발자들이 직접 데이터를 분석하는 데이터 개발자(Data Developer)의 확대가 더 중요하다'고 게재한 바 있다. 도전하는 개발자에게 도움이 될 이야기 같은데, 그들에게 한 마디 조언을 해준다면?
소프트웨어 개발자는 원래 계산적 사고와 분석적 사고를 함께 하도록 훈련받았다. 따라서, 이 두 가지를 제대로 하고 있다면 빅 데이터 기술을 통한 분석에 대해 큰 걱정을 할 필요는 없다. 분석적 사고를 위한 노력이 더 필요하다면 이와 관련해 좀더 공부하기를 바란다. 기존 데이터마이너보다 더 빠르게 이해할 수 있다. 앞서 계속 강조해 온 대로 ‘오픈 소스 내재화’에 대한 노력을 계속해야 한다. 새로 나온 것을 설치해 보고, 써보고, 튜닝해보고, 긱(geek)적인 행동을 몸에 익히는 것이 중요하다. 인터넷을 검색해 보면 대용량 테스트 데이터 세트는 널려있다. 회사가 오픈 소스를 지원해 주지 않아 데이터 규모가 작다라는 핑계는 자기 합리화에 불과하다. 자기의 몸값은 자기가 스스로 올리는 것이다.
 
국내 개발자를 대표하는 한 사람으로서 국내 빅 데이터 시장 성장을 저해하는 가장 큰 요소는 무엇이며, 이를 해결하기 위해 가장 필요한 점은 무엇이라 생각하는가?
산업 생태계 측면에서는 상용 개발업체들의 독식 현상이 심하다는 것이다. SI 업계나 대형 프로젝트들이 외산 개발업체에 의존하고 있다. 따라서 공공 프로젝트부터 오픈 소스 기반의 솔루션을 채택하도록 그 비율을 강제할 필요가 있다. 미 연방정부에서도 오픈 소스 활용을 늘이는 법안을 통과시킨 적이 있다. 유독 우리나라에만 외산 개발업체들의 기술팀보다 영업팀 많다는 것은 그만큼 산업 생태계가 기술 위주로 움직이지 않고 있다는 증거다. 기업 입장에서는 경영자들이 낮은 데이터 인식도 문제다. 작은 국내 시장에서 굳이 오픈 소스를 내재화하는 비용을 들여 구글이나 페이스북 같은 글로벌 업체들이 쓰는 데이터 플랫폼을 쓸 필요가 있을지 반문한다. 지금 빨리 할 수 있는 상용 개발업체의 솔루션을 원하는 데, 데이터는 쌓이면 쌓일수록 커지는 것이고 더 빠르게 성장할 수 있는 기회와 기반을 놓치는 우를 범할 수 있다. 소프트웨어 개발자보다는 기업의 인식과 IT 산업 생태계의 변화가 빅 데이터 산업에도 영향을 미칠 수 밖에 없다는 생각이다.
 
한편 한국 IDG가 주최하는 빅 데이터 월드 2012 컨퍼런스에서는 아마존 데이터 전문가인 조 지글러를 통해 빅 데이터와 클라우드와의 시너지를 만나볼 수 있으며, 3억 회원의 온라인 구매 패턴을 분석하는 이베이의 빅 데이터 운영 관리 사례와 국내외 빅 데이터 리더들의 열띤 강연이 펼쳐질 예정이다. editor@itworld.co.kr