2012.11.26

세계에서 가장 강력한 빅 데이터 시스템 순위 : 그래프 500 관심도 급상승

Joab Jackson | IDG News Service
수퍼컴퓨터 성능 순위라고 하면 톱500(Top500)이 유일했지만 이제는 아니다. 슈퍼컴퓨터의 빅 데이터 부하 처리 능력을 평가하는 그래프 500(Graph 500) 순위가 주목을 받고 있기 때문이다.
 
톱500에서는 신형 크레이(Cray) 수퍼컴퓨터가 1위를 차지했지만, 데이터 집약적인 작업을 가장 효과적으로 처리하는 컴퓨터를 가리는 그래프 500에서는 로렌스 리버모어 국립연구소의 세쿼이아(Sequoia)가 1위를 기록했다.
 
두 척도 간의 순위 차이는 세계에서 가장 강력한 수퍼컴퓨터의 용도가 바뀌고 있음을 시사한다. 점점 더 많은 고성능 컴퓨팅(HPC) 시스템이 모델링, 시뮬레이션과 같은 전통적인 작업이 아닌 데이터 분석에 투입되고 있다.
 
그래프 500 검수에 참여하는 조지아 공과대학교 컴퓨터 과학과 교수 데이빗 베이더는 “수퍼컴퓨팅 2012 컨퍼런스 전시회장을 둘러보니, 거의 대부분의 부스가 빅 데이터 또는 분석 작업을 시연 중이었다. HPC가 처리해야 할 새로운 워크로드는 바로 데이터라는 사실을 모두가 인지한 것”이라고 강조했다.
 
그래프 500의 목적은 세계 최대 규모 컴퓨터들의 데이터 집약적 부하 처리 능력에 순위를 매기는 것이다. 최신 순위는 솔트레이크 시티에서 열린 SC12 수퍼컴퓨팅 컨퍼런스에서 공개됐다.
 
베이더는 “간단히 설명하자면 그래프 500 벤치마크는 시스템이 랜덤 메모리 주소를 얼마나 빠르게 탐색할 수 있는지를 보는 것”이라며, “데이터 집약적인 작업에서는 부동소수점 처리 속도가 아니라 메모리 대역폭이 병목 지점이 되는 경우가 많다”고 설명했다.
 
그래프 500의 순위를 매기는 방식은 톱500과는 상당히 다르다. 잘 알려진 톱500 목록은 1974년에 만들어진 린팩(Linpack) 벤치마크를 기반으로 한다. 린팩은 기후 모델링 또는 기타 3차원 시뮬레이션과 같은 수학 집약적 계산에 사용되는 부동소수점 연산을 수퍼컴퓨터가 얼마나 효과적으로 실행하는지를 측정한다.
 
반면 그래프 500은 대량의 데이터 집합을 얼마나 빠르게 탐색할 수 있는가에 더 중점을 둔다. 베이더는 “빅 데이터의 특징은 불규칙적이고 비구조적인 데이터 집합, 불규칙적인 메모리 접근이 빈번하게 사용되며, 부동소수점 성능보다 메모리 대역폭과 메모리 트랜잭션에 대한 의존도가 높다는 점”이라고 말했다.
 
그래프 500 벤치마크는 수퍼컴퓨터에 ‘그래프’로 불리는 대량의 데이터 집합을 부여한다. 그래프는 상호 연결된 데이터 집합이다. 페이스북과 같은 소셜 네트워크의 연결된 친구 그룹이 그 예다. 그래프는 꼭지점과 모서리 집합으로 구성되며 소셜 미디어의 경우 꼭지점은 사람이고 모서리는 그 사람과 다른 사람의 연결이라고 할 수 있다. 꼭지점에 따라 연결이 많거나 적을 수 있다. 컴퓨터에 하나의 꼭지점을 지정하고 컴퓨터가 모서리를 따라 그래프의 다른 모든 꼭지점을 얼마나 신속하게 찾아내는지 그 시간을 측정한다.
 
현재 그래프 500 순위에서는 IBM의 블루진/Q 시스템이 독주하고 있다. 상위 10개 시스템 중 9개가 블루진/Q 모델이다. 2011년 11월 순위의 4개에서 더욱 증가한 수치다. 베이더는 이것이 IBM이 현재의 데이터 처리 요구 사항에 기민하게 대처하고 있다는 증거라고 지적했다. IBM의 이전 블루진 시스템인 블루진/L은 부동소수점 연산에 초점을 두는데, 그래프 500에서는 순위가 그다지 높지 않다.
 
톱500과 마찬가지로 그래프 500도 시간이 지나면서 참여 시스템의 성능이 꾸준히 향상되고 있음을 보여준다. 최신 목록의 최상위 시스템인 세쿼이아는 초당 15조 3,630억 개의 모서리를 탐색했다. 2010년 최초로 작성된 그래프500에서 최상위 시스템의 모서리 탐색 속도는 초당 70억 개에 불과했다. 베이더는 성능 증가폭이 “놀라운 수준”이라고 덧붙였다.
 
그래프500 순위는 연 2회 작성되며, 톱500과 마찬가지로 결과는 보통 11월에 열리는 수퍼컴퓨팅 컨퍼런스 또는 6월쯤 열리는 국제 수퍼컴퓨팅 컨퍼런스에서 공개된다. 참여는 자발적이다. 참가자는 기준으로 제시되는 구현을 실행하거나 자체 벤치마크 구현을 실행한 다음 결과를 제출한다.
 
이름은 그래프500이지만 아직 참가 시스템 수는 500개에 미치지 못한다. 판을 거듭할수록 수가 늘어나고 있는데, 최초 참가 시스템은 9개에 불과했는데 최신 순위 경쟁에는 124개의 시스템이 참여했다.
 
베이더는 그래프500이 톱500을 대체하는 것이 아니라 보완적인 벤치마크라고 말했다. 데이터 집약적인 벤치마크는 톱500의 린팩 벤치마크 사용에 대한 일부 비판에 대한 해답이 될 수 있다.
 
린팩을 만드는 데 참여했고 현재 톱500을 관리하는 잭 동가라는 SC12에서 최신 톱500 결과에 대한 논의 중에 린팩이 컴퓨터 성능의 모든 측면을 측정하는 것은 아니라고 인정했다. 그는 그래프500, 그린500, HPC 챌린지와 같은 프로젝트가 수퍼컴퓨터 성능의 다른 측면들을 측정한다고 말했다.
 
이 가운데 미국 국립 수퍼컴퓨터 활용 센터의 블루 워터스는 톱500에 참여하지 않았다. 린팩이 시스템의 진정한 성능을 충분히 반영하지 못한다고 판단했기 때문이다.
 
베이더는 “수퍼컴퓨터는 벤치마크가 아니라 그 시스템의 용도에 맞게 제작된다”며, “결국 자신의 작업에 가장 적합한 시스템이 가장 바람직한 것”이라고 덧붙였다.  editor@itworld.co.kr


2012.11.26

세계에서 가장 강력한 빅 데이터 시스템 순위 : 그래프 500 관심도 급상승

Joab Jackson | IDG News Service
수퍼컴퓨터 성능 순위라고 하면 톱500(Top500)이 유일했지만 이제는 아니다. 슈퍼컴퓨터의 빅 데이터 부하 처리 능력을 평가하는 그래프 500(Graph 500) 순위가 주목을 받고 있기 때문이다.
 
톱500에서는 신형 크레이(Cray) 수퍼컴퓨터가 1위를 차지했지만, 데이터 집약적인 작업을 가장 효과적으로 처리하는 컴퓨터를 가리는 그래프 500에서는 로렌스 리버모어 국립연구소의 세쿼이아(Sequoia)가 1위를 기록했다.
 
두 척도 간의 순위 차이는 세계에서 가장 강력한 수퍼컴퓨터의 용도가 바뀌고 있음을 시사한다. 점점 더 많은 고성능 컴퓨팅(HPC) 시스템이 모델링, 시뮬레이션과 같은 전통적인 작업이 아닌 데이터 분석에 투입되고 있다.
 
그래프 500 검수에 참여하는 조지아 공과대학교 컴퓨터 과학과 교수 데이빗 베이더는 “수퍼컴퓨팅 2012 컨퍼런스 전시회장을 둘러보니, 거의 대부분의 부스가 빅 데이터 또는 분석 작업을 시연 중이었다. HPC가 처리해야 할 새로운 워크로드는 바로 데이터라는 사실을 모두가 인지한 것”이라고 강조했다.
 
그래프 500의 목적은 세계 최대 규모 컴퓨터들의 데이터 집약적 부하 처리 능력에 순위를 매기는 것이다. 최신 순위는 솔트레이크 시티에서 열린 SC12 수퍼컴퓨팅 컨퍼런스에서 공개됐다.
 
베이더는 “간단히 설명하자면 그래프 500 벤치마크는 시스템이 랜덤 메모리 주소를 얼마나 빠르게 탐색할 수 있는지를 보는 것”이라며, “데이터 집약적인 작업에서는 부동소수점 처리 속도가 아니라 메모리 대역폭이 병목 지점이 되는 경우가 많다”고 설명했다.
 
그래프 500의 순위를 매기는 방식은 톱500과는 상당히 다르다. 잘 알려진 톱500 목록은 1974년에 만들어진 린팩(Linpack) 벤치마크를 기반으로 한다. 린팩은 기후 모델링 또는 기타 3차원 시뮬레이션과 같은 수학 집약적 계산에 사용되는 부동소수점 연산을 수퍼컴퓨터가 얼마나 효과적으로 실행하는지를 측정한다.
 
반면 그래프 500은 대량의 데이터 집합을 얼마나 빠르게 탐색할 수 있는가에 더 중점을 둔다. 베이더는 “빅 데이터의 특징은 불규칙적이고 비구조적인 데이터 집합, 불규칙적인 메모리 접근이 빈번하게 사용되며, 부동소수점 성능보다 메모리 대역폭과 메모리 트랜잭션에 대한 의존도가 높다는 점”이라고 말했다.
 
그래프 500 벤치마크는 수퍼컴퓨터에 ‘그래프’로 불리는 대량의 데이터 집합을 부여한다. 그래프는 상호 연결된 데이터 집합이다. 페이스북과 같은 소셜 네트워크의 연결된 친구 그룹이 그 예다. 그래프는 꼭지점과 모서리 집합으로 구성되며 소셜 미디어의 경우 꼭지점은 사람이고 모서리는 그 사람과 다른 사람의 연결이라고 할 수 있다. 꼭지점에 따라 연결이 많거나 적을 수 있다. 컴퓨터에 하나의 꼭지점을 지정하고 컴퓨터가 모서리를 따라 그래프의 다른 모든 꼭지점을 얼마나 신속하게 찾아내는지 그 시간을 측정한다.
 
현재 그래프 500 순위에서는 IBM의 블루진/Q 시스템이 독주하고 있다. 상위 10개 시스템 중 9개가 블루진/Q 모델이다. 2011년 11월 순위의 4개에서 더욱 증가한 수치다. 베이더는 이것이 IBM이 현재의 데이터 처리 요구 사항에 기민하게 대처하고 있다는 증거라고 지적했다. IBM의 이전 블루진 시스템인 블루진/L은 부동소수점 연산에 초점을 두는데, 그래프 500에서는 순위가 그다지 높지 않다.
 
톱500과 마찬가지로 그래프 500도 시간이 지나면서 참여 시스템의 성능이 꾸준히 향상되고 있음을 보여준다. 최신 목록의 최상위 시스템인 세쿼이아는 초당 15조 3,630억 개의 모서리를 탐색했다. 2010년 최초로 작성된 그래프500에서 최상위 시스템의 모서리 탐색 속도는 초당 70억 개에 불과했다. 베이더는 성능 증가폭이 “놀라운 수준”이라고 덧붙였다.
 
그래프500 순위는 연 2회 작성되며, 톱500과 마찬가지로 결과는 보통 11월에 열리는 수퍼컴퓨팅 컨퍼런스 또는 6월쯤 열리는 국제 수퍼컴퓨팅 컨퍼런스에서 공개된다. 참여는 자발적이다. 참가자는 기준으로 제시되는 구현을 실행하거나 자체 벤치마크 구현을 실행한 다음 결과를 제출한다.
 
이름은 그래프500이지만 아직 참가 시스템 수는 500개에 미치지 못한다. 판을 거듭할수록 수가 늘어나고 있는데, 최초 참가 시스템은 9개에 불과했는데 최신 순위 경쟁에는 124개의 시스템이 참여했다.
 
베이더는 그래프500이 톱500을 대체하는 것이 아니라 보완적인 벤치마크라고 말했다. 데이터 집약적인 벤치마크는 톱500의 린팩 벤치마크 사용에 대한 일부 비판에 대한 해답이 될 수 있다.
 
린팩을 만드는 데 참여했고 현재 톱500을 관리하는 잭 동가라는 SC12에서 최신 톱500 결과에 대한 논의 중에 린팩이 컴퓨터 성능의 모든 측면을 측정하는 것은 아니라고 인정했다. 그는 그래프500, 그린500, HPC 챌린지와 같은 프로젝트가 수퍼컴퓨터 성능의 다른 측면들을 측정한다고 말했다.
 
이 가운데 미국 국립 수퍼컴퓨터 활용 센터의 블루 워터스는 톱500에 참여하지 않았다. 린팩이 시스템의 진정한 성능을 충분히 반영하지 못한다고 판단했기 때문이다.
 
베이더는 “수퍼컴퓨터는 벤치마크가 아니라 그 시스템의 용도에 맞게 제작된다”며, “결국 자신의 작업에 가장 적합한 시스템이 가장 바람직한 것”이라고 덧붙였다.  editor@itworld.co.kr


X