2013.01.18

페이스북 그래프 검색 구축의 어려움과 소셜 미디어 업계에 주는 의미

Brandon Butler | Network World

2011년 여름, 페이스북의 '절대군주'인 마크 주커버그와 구글 출신으로 1년 전 페이스북에 합류한 라스 라스무센은 페이스북의 3번째 '기둥'을 구축하는 방법에 대해 논의했다.
 
페이스북의 타임라인은 개인의 삶을 한 눈에 보여준다. 어떤 사람인지, 어떤 일을 하는지, 친구들은 누구인지, 뭘 좋아하는지 등을 알려준다. 뉴스피드는 각 사용자 소셜 네트워크에 가장 최근에 일어난 일을 엿볼 수 있는 장소이다. 주커버그의 설명에 따르면, 이 두 기둥에 이은 세 번째 기둥이 이번 주 본사에서 공개된 그래프 검색이다. 그래프 검색은 사용자가 검색어를 타이핑하면 해당 소셜 네트워킹에서 검색 결과를 제시하는 첨단 검색 기능이다.
 
이런 검색 시스템 구축은 대단한 작업이다.  페이스북은 2,400억 장의 사진을 공유하는 10억 명의 활성 이용자를 보유하고 있다. 소셜 네트워크는 수천 가지 형태의 연결이 1조가 넘는 복잡한 망이다. 라스무센은 "사람들은 매일 수십억 가지의 새 콘텐츠를 공유한다. 그래프 검색은 이를 수초 만에 분류할 수 있어야 한다"고 설명했다. 그렇다면 페이스북은 이를 어떻게 구현할까?
 
그래프 검색의 복잡한 엔지니어링
페이스북은 내부 운영에 대해서는 통상 입을 다문다. 그러나 페이스북 페이지 엔지니어링에 대해 일부 힌트를 주고 있다. 데이터베이스 전문가들, 심지어는 페이스북을 주시한 전문가들조차 페이스북이 어떤 방법으로 그래프 검색을 구축할지 정확히 알지 못하고 있다. 그러나 구조화 데이터와 비구조화 데이터를 통합된 검색 툴로 결합하고, 동시에 각 사용자의 개인 프라이버시 설정을 고려하는 것은 기술적으로 많은 도전이 따른다.
 
451 그룹(451 Group)의 데이터 전문가인 매트 아슬렛은 "이런 규모의 데이터 베이스 검색은 정말 복잡하다. 특히 페이스북 자체의 성능을 떨어뜨리지 않으면서 전체 데이터베이스를 검색하는 방법을 찾는데 어려움이 있다. 게다가 페이스북은 그래프 검색을 추구하고 있다. 데이터는 물론 데이터 사이의 관계를 검색하는 것이다. 이를 효율적으로 구현하기란 아주 어렵다"고 지적했다.
 
아슬렛은 그래프 검색이 페이스북이 내부 개발한 타오(Tao) 데이터베이스에 기반을 둘 확률이 높을 것으로 믿고 있다. 페이스북의 한 엔지니어가 지난 해 가을 블로그에 올린 글에 따르면, 수천 공유 MySQL 데이터베이스 상위에 위치한 캐시 계층이다. 그는 캐시 콘텐트를 가지고 작업하는데 따른 어려움을 설명했었다.
 
위키본 프로젝트(Wikibon Project)의 빅 데이터 전문가인 제프리 켈리는 엔지니어들은 그래프 검색을 개발하면서 현재 시장에 가용한 일부 오픈 소스 툴과 페이스북의 아주 독특한 유즈 케이스를 위해 내부 개발한 코드를 사용할 것으로 예측했다. 넷플릭스(Netflix)가 아마존 웹 서비스 클라우드에서 영화들을 인덱스 하기 위해 사용하고 있는 카산드라(Cassandra)와 아파치 루시네 솔라(Apache Lucene Solar) 같은 툴이다. 그는 "페이스북은 시중에 나와있는 소프트웨어와 하드웨어를 그대로 사용하지 않는다"고 말했다. 그렇게 할 수가 없다. 오픈소스 기술을 맞춤화 하거나, 독자적으로 개발을 해야 한다.
 
라스무센은 그래프 검색 베타 버전에 대해 "우리 중 누구도 과거 이런 시스템을 구축한 경험이 없다"고 말했다. 누구도 과거 그래프 검색 같은 기술을 구축한 사례가 없다. 소셜 네트워크 전용으로 사용할 수 있도록 설계해야 하는 완전히 새로운 형태의 검색 툴이기 때문이다.
 
라스무센은 전통적인 검색 툴로는 이를 구현할 수 없다고 지적했다. 그는 "키워드와 구조화 쿼리가 결합된 전통적인 검색 시스템 사용은 잘 알려져 있다"고 적고 있다. 그러나 그래프 검색은 1개 이상의 연결로 결과를 제시할 수 있어야 한다. 또 프라이버시에 대해서도 완전히 새로운 시각을 가져야 한다. 엔지니어들은 데이터를 철저히 검색하는 시스템을 설계할 수 있다. 그러나 사용자들은 많은 경우 정보를 볼 수 있는 사람들을 제한하는 설정을 한다. 즉 그래프 검색은 검색자가 공유한 결과만 제시하도록 설계되어야 한다. 검색 쿼리가 더 복잡할 수록 '검색자가 누구이든 봐서는 안 되는 검색 결과를 보지 못하도록 만드는’것이 더 어렵다.
 
초기 프로토타입에는 사용자가 구조화된 데이터베이스 같은 쿼리를 할 수 있는 간단한 그래픽 사용자 인터페이스가 포함되어 있었다. 그러나 너무 복잡해 보였고, 주커버그의 요청에도 미치지 못했다. 라스무센은 "이후 검색자가 많은 검색어를 입력하지 않는다면 우리가 추구하는 체험과 유사한, 자바스크립트 기반의 지수시간 알고리즘 '파서(Parser)'에 해당하는 2세대 프로토타입을 개발했다"고 말했다.
 
이것이 기본적으로 현재의 그래프 검색이 위치한 장소이다. 페이스북은 그래프 검색이 아직 초기 단계라고 강조하고 있다. 일부 선택된 사용자만을 대상으로 하고 있다(현재 이 사용자가 되기 위해 요청을 할 수 있는 상태이다). 또 그래프 검색으로 사람과 사진, 장소, 관심사만 검색할 수 있다.  아직 모바일 장치에서는 사용을 할 수 없다. 또 영어만 지원한다. 현재까지 그래프 검색의 최대 데이터세트인 타임라인 포스트와 코멘트를 검색할 수도 없다.
 
페이스북은 그래프 검색에 전력을 기울이고 있다. 소셜 네트워크의 '3번째 기둥'이라고 부를 정도이다. 와이어드(Wired)의 스티븐 레비는 페이스북이 그래프 검색을 공식 발표한 직후의 기사에서 그래프 검색에서 페이스북 로고는 'F'로 대체되고, 검색 툴바에서는 페이스북의 이름이 빠질 것이라고 보도했다. 페이스북이 2012년 11월 취득한 특허는 그래프 검색이 주요 이니셔티브가 될 것이라는 신호였다.
 
레비는 그래프 검색이 웹 검색과는 기본적으로 다르다고 적고 있다. 주커버그는 와이어드와의 인터뷰에서 "페이스북이 고객과 관련해 수집하는 데이터 성격 때문에 다른 누구도 대답을 할 수 없는 질문에 대답을 할 수 있다"고 언급하고 있다. 레비는 "현재 구글이 가장 크게 걱정을 하고 있다. 갑작스레 구글의 검색 엔진으로는 불가능한 데이터 검색을 제공하는 경쟁자를 직면했기 때문이다"고 보도했다.
 
페이스북의 카리 리 엔지니어링 관리자는 그래프 검색을 발표하는 비디오에서 "웹 검색에서는 사과를 검색하는 사람이 누구이든 동일한 결과가 나오는 경우가 아주 많다. 그러나 페이스북에서는 검색 결과가 완전히 달라진다. 개인화의 정도가 다르기 때문이다"고 설명했다.
 
소셜 미디어 업계에 미치는 영향
페이스북의 그래프 검색은 다른 소셜 네트워크를 '무력화' 할 잠재력을 갖고 있다. 주커버그는 그래프 검색을 이용하면 페이스북 직원과 페이스북 친구 관계인 구글의 엔지니어를 검색할 수 있다고 언급했다. 직장인들의 소셜 네트워킹 사이트인 링크드인에 직접 타격을 주게 되는 것이다. 온라인 데이팅 사이트도 타격을 받을 수 있다. 사용자가 그래프 검색을 이용해 특정 지역에 거주하는 친구들의 친구를 검색할 수 있기 때문이다. 이는 유명한 데이팅 사이트인 매치닷컴(Match.com)이나 이하모니(eHarmony)가 제공하는 기능과 유사한 기능이다.
 
그렇다면 페이스북이 검색 부문에 혁신을 불러올까? 알티미터 그룹(Altimeter Group)의 데이터 전문가인 수잔 이트링거는 "시간이 말을 해 줄 것"이라고 전망했다. 그녀는 그래프 검색에도 제약이 있다고 지적했다. 페이스북은 구글에 없는 데이터를 보유하고 있지만, 동시에 구글 또한 페이스북에 없는 데이터를 보유하고 있기 때문이다. 예를 들어, 그래프 검색은 본질적으로 검색자, 즉 페이스북 사용자가 소셜 네트워크를 대상으로 검색을 하는데 그친다. 그리고 페이스북은 13세 미만의 사용자가 계정을 만들지 못하도록 하고 있다. 그녀는 "구글은 더 큰 기본 데이터세트를 보유하고 있다. 인터넷에 연결된 사람이라면 누구나 대상이 된다"고 설명했다.
 
그러나 이트링거는 그래프 검색이 개인화 검색을 바탕으로 소셜 네트워킹 및 검색 산업을 바꿀 수 있는 잠재력을 갖고 있다는 점은 인정했다. 그녀는 "개인화 검색이 가능한 플랫폼이 없었다. 그래프 검색은 검색자의 친구, 취미, 인맥과 직접 관련된 검색 결과를 제시한다. 이는 강력한 툴이다"고 설명했다. editor@itworld.co.kr


2013.01.18

페이스북 그래프 검색 구축의 어려움과 소셜 미디어 업계에 주는 의미

Brandon Butler | Network World

2011년 여름, 페이스북의 '절대군주'인 마크 주커버그와 구글 출신으로 1년 전 페이스북에 합류한 라스 라스무센은 페이스북의 3번째 '기둥'을 구축하는 방법에 대해 논의했다.
 
페이스북의 타임라인은 개인의 삶을 한 눈에 보여준다. 어떤 사람인지, 어떤 일을 하는지, 친구들은 누구인지, 뭘 좋아하는지 등을 알려준다. 뉴스피드는 각 사용자 소셜 네트워크에 가장 최근에 일어난 일을 엿볼 수 있는 장소이다. 주커버그의 설명에 따르면, 이 두 기둥에 이은 세 번째 기둥이 이번 주 본사에서 공개된 그래프 검색이다. 그래프 검색은 사용자가 검색어를 타이핑하면 해당 소셜 네트워킹에서 검색 결과를 제시하는 첨단 검색 기능이다.
 
이런 검색 시스템 구축은 대단한 작업이다.  페이스북은 2,400억 장의 사진을 공유하는 10억 명의 활성 이용자를 보유하고 있다. 소셜 네트워크는 수천 가지 형태의 연결이 1조가 넘는 복잡한 망이다. 라스무센은 "사람들은 매일 수십억 가지의 새 콘텐츠를 공유한다. 그래프 검색은 이를 수초 만에 분류할 수 있어야 한다"고 설명했다. 그렇다면 페이스북은 이를 어떻게 구현할까?
 
그래프 검색의 복잡한 엔지니어링
페이스북은 내부 운영에 대해서는 통상 입을 다문다. 그러나 페이스북 페이지 엔지니어링에 대해 일부 힌트를 주고 있다. 데이터베이스 전문가들, 심지어는 페이스북을 주시한 전문가들조차 페이스북이 어떤 방법으로 그래프 검색을 구축할지 정확히 알지 못하고 있다. 그러나 구조화 데이터와 비구조화 데이터를 통합된 검색 툴로 결합하고, 동시에 각 사용자의 개인 프라이버시 설정을 고려하는 것은 기술적으로 많은 도전이 따른다.
 
451 그룹(451 Group)의 데이터 전문가인 매트 아슬렛은 "이런 규모의 데이터 베이스 검색은 정말 복잡하다. 특히 페이스북 자체의 성능을 떨어뜨리지 않으면서 전체 데이터베이스를 검색하는 방법을 찾는데 어려움이 있다. 게다가 페이스북은 그래프 검색을 추구하고 있다. 데이터는 물론 데이터 사이의 관계를 검색하는 것이다. 이를 효율적으로 구현하기란 아주 어렵다"고 지적했다.
 
아슬렛은 그래프 검색이 페이스북이 내부 개발한 타오(Tao) 데이터베이스에 기반을 둘 확률이 높을 것으로 믿고 있다. 페이스북의 한 엔지니어가 지난 해 가을 블로그에 올린 글에 따르면, 수천 공유 MySQL 데이터베이스 상위에 위치한 캐시 계층이다. 그는 캐시 콘텐트를 가지고 작업하는데 따른 어려움을 설명했었다.
 
위키본 프로젝트(Wikibon Project)의 빅 데이터 전문가인 제프리 켈리는 엔지니어들은 그래프 검색을 개발하면서 현재 시장에 가용한 일부 오픈 소스 툴과 페이스북의 아주 독특한 유즈 케이스를 위해 내부 개발한 코드를 사용할 것으로 예측했다. 넷플릭스(Netflix)가 아마존 웹 서비스 클라우드에서 영화들을 인덱스 하기 위해 사용하고 있는 카산드라(Cassandra)와 아파치 루시네 솔라(Apache Lucene Solar) 같은 툴이다. 그는 "페이스북은 시중에 나와있는 소프트웨어와 하드웨어를 그대로 사용하지 않는다"고 말했다. 그렇게 할 수가 없다. 오픈소스 기술을 맞춤화 하거나, 독자적으로 개발을 해야 한다.
 
라스무센은 그래프 검색 베타 버전에 대해 "우리 중 누구도 과거 이런 시스템을 구축한 경험이 없다"고 말했다. 누구도 과거 그래프 검색 같은 기술을 구축한 사례가 없다. 소셜 네트워크 전용으로 사용할 수 있도록 설계해야 하는 완전히 새로운 형태의 검색 툴이기 때문이다.
 
라스무센은 전통적인 검색 툴로는 이를 구현할 수 없다고 지적했다. 그는 "키워드와 구조화 쿼리가 결합된 전통적인 검색 시스템 사용은 잘 알려져 있다"고 적고 있다. 그러나 그래프 검색은 1개 이상의 연결로 결과를 제시할 수 있어야 한다. 또 프라이버시에 대해서도 완전히 새로운 시각을 가져야 한다. 엔지니어들은 데이터를 철저히 검색하는 시스템을 설계할 수 있다. 그러나 사용자들은 많은 경우 정보를 볼 수 있는 사람들을 제한하는 설정을 한다. 즉 그래프 검색은 검색자가 공유한 결과만 제시하도록 설계되어야 한다. 검색 쿼리가 더 복잡할 수록 '검색자가 누구이든 봐서는 안 되는 검색 결과를 보지 못하도록 만드는’것이 더 어렵다.
 
초기 프로토타입에는 사용자가 구조화된 데이터베이스 같은 쿼리를 할 수 있는 간단한 그래픽 사용자 인터페이스가 포함되어 있었다. 그러나 너무 복잡해 보였고, 주커버그의 요청에도 미치지 못했다. 라스무센은 "이후 검색자가 많은 검색어를 입력하지 않는다면 우리가 추구하는 체험과 유사한, 자바스크립트 기반의 지수시간 알고리즘 '파서(Parser)'에 해당하는 2세대 프로토타입을 개발했다"고 말했다.
 
이것이 기본적으로 현재의 그래프 검색이 위치한 장소이다. 페이스북은 그래프 검색이 아직 초기 단계라고 강조하고 있다. 일부 선택된 사용자만을 대상으로 하고 있다(현재 이 사용자가 되기 위해 요청을 할 수 있는 상태이다). 또 그래프 검색으로 사람과 사진, 장소, 관심사만 검색할 수 있다.  아직 모바일 장치에서는 사용을 할 수 없다. 또 영어만 지원한다. 현재까지 그래프 검색의 최대 데이터세트인 타임라인 포스트와 코멘트를 검색할 수도 없다.
 
페이스북은 그래프 검색에 전력을 기울이고 있다. 소셜 네트워크의 '3번째 기둥'이라고 부를 정도이다. 와이어드(Wired)의 스티븐 레비는 페이스북이 그래프 검색을 공식 발표한 직후의 기사에서 그래프 검색에서 페이스북 로고는 'F'로 대체되고, 검색 툴바에서는 페이스북의 이름이 빠질 것이라고 보도했다. 페이스북이 2012년 11월 취득한 특허는 그래프 검색이 주요 이니셔티브가 될 것이라는 신호였다.
 
레비는 그래프 검색이 웹 검색과는 기본적으로 다르다고 적고 있다. 주커버그는 와이어드와의 인터뷰에서 "페이스북이 고객과 관련해 수집하는 데이터 성격 때문에 다른 누구도 대답을 할 수 없는 질문에 대답을 할 수 있다"고 언급하고 있다. 레비는 "현재 구글이 가장 크게 걱정을 하고 있다. 갑작스레 구글의 검색 엔진으로는 불가능한 데이터 검색을 제공하는 경쟁자를 직면했기 때문이다"고 보도했다.
 
페이스북의 카리 리 엔지니어링 관리자는 그래프 검색을 발표하는 비디오에서 "웹 검색에서는 사과를 검색하는 사람이 누구이든 동일한 결과가 나오는 경우가 아주 많다. 그러나 페이스북에서는 검색 결과가 완전히 달라진다. 개인화의 정도가 다르기 때문이다"고 설명했다.
 
소셜 미디어 업계에 미치는 영향
페이스북의 그래프 검색은 다른 소셜 네트워크를 '무력화' 할 잠재력을 갖고 있다. 주커버그는 그래프 검색을 이용하면 페이스북 직원과 페이스북 친구 관계인 구글의 엔지니어를 검색할 수 있다고 언급했다. 직장인들의 소셜 네트워킹 사이트인 링크드인에 직접 타격을 주게 되는 것이다. 온라인 데이팅 사이트도 타격을 받을 수 있다. 사용자가 그래프 검색을 이용해 특정 지역에 거주하는 친구들의 친구를 검색할 수 있기 때문이다. 이는 유명한 데이팅 사이트인 매치닷컴(Match.com)이나 이하모니(eHarmony)가 제공하는 기능과 유사한 기능이다.
 
그렇다면 페이스북이 검색 부문에 혁신을 불러올까? 알티미터 그룹(Altimeter Group)의 데이터 전문가인 수잔 이트링거는 "시간이 말을 해 줄 것"이라고 전망했다. 그녀는 그래프 검색에도 제약이 있다고 지적했다. 페이스북은 구글에 없는 데이터를 보유하고 있지만, 동시에 구글 또한 페이스북에 없는 데이터를 보유하고 있기 때문이다. 예를 들어, 그래프 검색은 본질적으로 검색자, 즉 페이스북 사용자가 소셜 네트워크를 대상으로 검색을 하는데 그친다. 그리고 페이스북은 13세 미만의 사용자가 계정을 만들지 못하도록 하고 있다. 그녀는 "구글은 더 큰 기본 데이터세트를 보유하고 있다. 인터넷에 연결된 사람이라면 누구나 대상이 된다"고 설명했다.
 
그러나 이트링거는 그래프 검색이 개인화 검색을 바탕으로 소셜 네트워킹 및 검색 산업을 바꿀 수 있는 잠재력을 갖고 있다는 점은 인정했다. 그녀는 "개인화 검색이 가능한 플랫폼이 없었다. 그래프 검색은 검색자의 친구, 취미, 인맥과 직접 관련된 검색 결과를 제시한다. 이는 강력한 툴이다"고 설명했다. editor@itworld.co.kr


X