2020.04.02

“트래픽 폭주를 막아라” 드롭박스와 줌, 넷플릭스가 용량 문제를 해결한 방법

Ann Bednarz | Network World
서비스 업체는 코로나19의 대폭발로 야기된 트래픽 수요 변화에 적응하고 있다. 더 많은 용량을 증설하고 PoP의 위치를 확대하고, 심지어는 공급망도 변경하고 있다.

드롭박스와 에퀴닉스, 넷플릭스, 줌의 네트워크 책임자는 3월 25일 네트워크 성능 관리 솔루션 업체 켄틱(Kentik)이 주최한 가상 컨퍼런스에서 자사의 경험을 공유했다. 전체적으로 이들 서비스와 서비스를 지탱하는 기반 네트워크는 잘 버티고 있지만, 기존 환경을 조정해야만 했다고 밝혔다.
 
ⓒ GettyImagesBank
 

신속하고 전략적인 용량 확대

줌 화상회의 서비스의 인기는 코로나19로 급상승했다. 동료 직원은 물론 가족과 친구들도 물리적으로 떨어진 곳에서 서로 연결되기를 원하기 때문이다. 줌의 SaaS 운영 수석 관리자인 알렉스 게레로에 따르면, 코로나19 상태가 일어나기 전에 줌은 서비스 제공에 유리한 위치에 있었다. 게레로는 “운 좋게도 줌은 약간은 변화에 앞서 있었다. 당시 필요한 최대 용량보다 대략 50% 정도 더 많은 용량을 보유해 약간의 완충 지대가 있었다. 최근 2주 동안은 이 기준을 지키기 위해 모두가 힘을 합쳤다”라고 말했다.

일반적인 원칙은 필요한 만큼의 대역폭을 조달하는 것이다. 동시에 줌은 장기적으로 자사 서비스를 어떻게 확장해 나갈 것인가를 전략적으로 생각했다. 예를 들어, 줌은 기술 협력업체 및 서비스 업체 고객과의 전용 연결을 구축하기 위해 에퀴닉스의 네트워크 상호연결 플랫폼을 사용한다. 

줌은 피어링(Peering)을 보강하고 트랜짓(Transit) 회선을 더 주문하고 기존 상호연결의 대역폭을 늘리는 방식으로 최종 사용자와의 근접도를 개선할 방안을 찾았다. 게레로는 “줌의 서비스는 너무 많은 지연을 감당하지 못한다. 하지만 가까이 있을수록 더 나은 성능을 얻을 수 있다. 중점을 둔 것은 바로 이 부분이다”라고 설명했다. 

줌은 전 세계 19곳의 데이터센터를 사용하는데, 각 시장에서 가장 큰 IXP(Internet eXchange Point)에 연결되어 있다. 게레로는 최종 사용자에 더 가까이 가기 위해 “이제는 두 번째로 큰 곳, 아마도 세 번째로 큰 곳도 보고 있다”고 덧붙였다. 

넷플릭스는 내부 인프라용으로 AWS 클라우드를 사용하는데, 퍼블릭 클라우드 자원을 확장하는 과정에는 문제가 없었다. 넷플릭스의 네트워크 담당 부사장 데이브 템킨은 “이 정도로 확장성 있는 환경을 만드는 데 정말로 많은 시간과 노력과 비용을 투자했다. 그렇기 때문에 이번 사태에도 클라우드 인프라가 압박을 받는다는 것은 느끼지 못했다”라고 말했다.

드롭박스는 자체 데이터센터를 운영하면서 일시적인 트래픽 증가는 AWS에 의존한다. 드롭박스의 문제는 사람들이 드롭박스 플랫폼에 액세스하는 방식이 변했다는 것. 코로나19 사태 이전에는 대다수 사용자가 사용자 밀집도가 높은 기업이나 대학교 네트워크를 통해 드롭박스 플랫폼에 액세스했다. 지금은 사용자가 집에서 일하면서 흩어져 있고 서로 다른 위치에서 드롭박스에 액세스한다. 드롭박스 엔지니어링 담당 수석 디렉터 드미트리 마르코비스는 이로 인해 드롭박스는 라스트 마일 연결 환경을 재검토했으며, 피어링에 좀 더 투자하는 방안을 고려하고 있다고 밝혔다.

콘텐츠 전달 측면에서 인터넷은 꽤 잘 확장되는 것처럼 보인다. 자체 CDN을 운영하는 넷플릭스는 일부 품질 저하가 일어나기도 하지만 서비스 이용에 영향을 주지 않을 만큼 미미한 것이다. 템킨은 “전체적으로 아무 것도 완전히 붕괴되지는 않은 것으로 보인다. 우리 시스템과 다른 시스템 모두 꽤 잘 확장하고 있다”고 평가했다.

넷플릭스는 유럽 지역의 스트리밍 서비스 품질을 낮출 계획이라고 발표했는데, 이를 통해 넷플릭스의 유럽 네트워크 트래픽 25%가 줄어들 것으로 예상한다. 템킨은 “공개적으로 밝혀온 것처럼 압박을 조금 줄이기 위해 일부 변경이 이루어졌다. 하지만 전체적으로는 모든 것이 꽤 잘 유지되고 있다”고 덧붙였다.

데이터센터 분야의 거대업체인 에퀴닉스는 자사 코로케이션 및 상호 연결 서비스를 26개국 55개 메트로 지역에 제공하는데, 이를 통해 코로나19의 세계적인 영향을 확인할 수 있었다. 에퀴닉스는 코로나19 확산과 함께 전 세계적으로 트래픽이 10~40% 증가한 것을 확인했다. 에퀴닉스 제품 관리 담당 수석 부사장 빌 롱은 “희소식은 모든 코어 인프라가 실제로 매우 잘 확장했다는 것이다”라고 평가했다.

트래픽 폭증은 우연히도 에퀴닉스의 기술 업그레이드 주기와 맞아떨어졌다. 에퀴닉스는 몇 년 전부터 10기가비트 링크에서 100기가비트 링크로 네트워크를 업그레이드하고 있다. 롱은 “운 좋게도 코어 용량에 많은 여유분이 있었다”고 밝혔다. 여유분은 증가한 트래픽으로 채워졌지만, 에퀴닉스의 IX 포트가 임계 용량에 도달하지는 않았다.

롱은 에퀴닉스 고객들이 더 빠른 네트워크로 광역 네트워크 업그레이드를 서둘러 진행하고 있으며, 이런 예기치 못한 트래픽 흐름을 에퀴닉스의 IP 트랜짓이나 피어링, 가상 네트워크 서비스가 수용할 수 있는지 검토하고 있다고 밝혔다. 롱은 “2년이 걸릴 것이라고 예상한 일이 단 2주, 2달 만에 일어났다”고 덧붙였다.
 

코로나19가 공급망에 미치는 영향

물리 인프라 측면에서 넷플릭스는 일부 공급망 문제도 극복해야 했다. 템킨은 “이와 관련해 공급망 여러 곳에 불이 난 상태였다”고 말했다. 예를 들어, 넷플릭스의 주 서버 제조업체가 있는 지역에 외출 금지령이 내려졌다. 템킨은 “하루만에 해당 업체에서 가능한 한 많은 장비를 가져 나오려면 어떻게 해야 하는지 파악해야 했다”고 설명했다.

넷플릭스는 이런 공급망 문제 대부분을 다른 공급업체를 확보하는 것으로 해결했다. 템킨은 “전반적으로 우리가 배치한 인프라 대부분을 문제없이 사용할 수 있었다. 특정 시장에서는 네트워크 연결을 강화해야만 했는데, 에퀴닉스 같은 협력업체는 필요한 지역으로 상호 연결을 확장하는 데 뛰어났다”고 밝혔다.

콘텐츠 생산 측면에서는 문제가 많지 않았다. 넷플릭스는 물론 다른 업체도 감염병 확산을 막기 위해 촬영을 중단했기 때문이다. 문제는 어떤 부분의 작업을 다시 시작할 수 있는가이다. 예를 들어, 애니메이션의 후처리나 시각 효과는 보통 집에서 하는 작업이 아니다. 막대한 컴퓨팅 성능과 대역폭이 필요하기 때문이다. 템킨은 “이런 작업을 집 밖에서 할 수 있는 방법을 찾고 있다”고 덧붙였다.

하지만 거시적 차원에서 서버나 네트워크 용량을 필요 이상으로 확보하지 않으려고 한다. 의료나 교육, 협업 등 좀 더 중요한 서비스에 영향을 미칠 수 있기 때문이다. 템킨은 “팀원들에게 어디든 가져올 수 있는 자원은 모두 추적하라고 한다. 하지만 넷플릭스보다 좀 더 중요한 다른 것도 많다는 것도 잘 알고 있다”고 강조했다.

또한 템킨은 팀원들이 일과 생활의 균형 및 건강을 유지하도록 노력하고 있다. 템킨은 결과적으로 “지금 당장 모든 것을 해결하려고 모두가 달려들지 않는 것이 중요하다. 모두가 새로운 기준이 무엇인지 파악하려고 노력하고 있을 뿐이다”라고 말했다. editor@itworld.co.kr


2020.04.02

“트래픽 폭주를 막아라” 드롭박스와 줌, 넷플릭스가 용량 문제를 해결한 방법

Ann Bednarz | Network World
서비스 업체는 코로나19의 대폭발로 야기된 트래픽 수요 변화에 적응하고 있다. 더 많은 용량을 증설하고 PoP의 위치를 확대하고, 심지어는 공급망도 변경하고 있다.

드롭박스와 에퀴닉스, 넷플릭스, 줌의 네트워크 책임자는 3월 25일 네트워크 성능 관리 솔루션 업체 켄틱(Kentik)이 주최한 가상 컨퍼런스에서 자사의 경험을 공유했다. 전체적으로 이들 서비스와 서비스를 지탱하는 기반 네트워크는 잘 버티고 있지만, 기존 환경을 조정해야만 했다고 밝혔다.
 
ⓒ GettyImagesBank
 

신속하고 전략적인 용량 확대

줌 화상회의 서비스의 인기는 코로나19로 급상승했다. 동료 직원은 물론 가족과 친구들도 물리적으로 떨어진 곳에서 서로 연결되기를 원하기 때문이다. 줌의 SaaS 운영 수석 관리자인 알렉스 게레로에 따르면, 코로나19 상태가 일어나기 전에 줌은 서비스 제공에 유리한 위치에 있었다. 게레로는 “운 좋게도 줌은 약간은 변화에 앞서 있었다. 당시 필요한 최대 용량보다 대략 50% 정도 더 많은 용량을 보유해 약간의 완충 지대가 있었다. 최근 2주 동안은 이 기준을 지키기 위해 모두가 힘을 합쳤다”라고 말했다.

일반적인 원칙은 필요한 만큼의 대역폭을 조달하는 것이다. 동시에 줌은 장기적으로 자사 서비스를 어떻게 확장해 나갈 것인가를 전략적으로 생각했다. 예를 들어, 줌은 기술 협력업체 및 서비스 업체 고객과의 전용 연결을 구축하기 위해 에퀴닉스의 네트워크 상호연결 플랫폼을 사용한다. 

줌은 피어링(Peering)을 보강하고 트랜짓(Transit) 회선을 더 주문하고 기존 상호연결의 대역폭을 늘리는 방식으로 최종 사용자와의 근접도를 개선할 방안을 찾았다. 게레로는 “줌의 서비스는 너무 많은 지연을 감당하지 못한다. 하지만 가까이 있을수록 더 나은 성능을 얻을 수 있다. 중점을 둔 것은 바로 이 부분이다”라고 설명했다. 

줌은 전 세계 19곳의 데이터센터를 사용하는데, 각 시장에서 가장 큰 IXP(Internet eXchange Point)에 연결되어 있다. 게레로는 최종 사용자에 더 가까이 가기 위해 “이제는 두 번째로 큰 곳, 아마도 세 번째로 큰 곳도 보고 있다”고 덧붙였다. 

넷플릭스는 내부 인프라용으로 AWS 클라우드를 사용하는데, 퍼블릭 클라우드 자원을 확장하는 과정에는 문제가 없었다. 넷플릭스의 네트워크 담당 부사장 데이브 템킨은 “이 정도로 확장성 있는 환경을 만드는 데 정말로 많은 시간과 노력과 비용을 투자했다. 그렇기 때문에 이번 사태에도 클라우드 인프라가 압박을 받는다는 것은 느끼지 못했다”라고 말했다.

드롭박스는 자체 데이터센터를 운영하면서 일시적인 트래픽 증가는 AWS에 의존한다. 드롭박스의 문제는 사람들이 드롭박스 플랫폼에 액세스하는 방식이 변했다는 것. 코로나19 사태 이전에는 대다수 사용자가 사용자 밀집도가 높은 기업이나 대학교 네트워크를 통해 드롭박스 플랫폼에 액세스했다. 지금은 사용자가 집에서 일하면서 흩어져 있고 서로 다른 위치에서 드롭박스에 액세스한다. 드롭박스 엔지니어링 담당 수석 디렉터 드미트리 마르코비스는 이로 인해 드롭박스는 라스트 마일 연결 환경을 재검토했으며, 피어링에 좀 더 투자하는 방안을 고려하고 있다고 밝혔다.

콘텐츠 전달 측면에서 인터넷은 꽤 잘 확장되는 것처럼 보인다. 자체 CDN을 운영하는 넷플릭스는 일부 품질 저하가 일어나기도 하지만 서비스 이용에 영향을 주지 않을 만큼 미미한 것이다. 템킨은 “전체적으로 아무 것도 완전히 붕괴되지는 않은 것으로 보인다. 우리 시스템과 다른 시스템 모두 꽤 잘 확장하고 있다”고 평가했다.

넷플릭스는 유럽 지역의 스트리밍 서비스 품질을 낮출 계획이라고 발표했는데, 이를 통해 넷플릭스의 유럽 네트워크 트래픽 25%가 줄어들 것으로 예상한다. 템킨은 “공개적으로 밝혀온 것처럼 압박을 조금 줄이기 위해 일부 변경이 이루어졌다. 하지만 전체적으로는 모든 것이 꽤 잘 유지되고 있다”고 덧붙였다.

데이터센터 분야의 거대업체인 에퀴닉스는 자사 코로케이션 및 상호 연결 서비스를 26개국 55개 메트로 지역에 제공하는데, 이를 통해 코로나19의 세계적인 영향을 확인할 수 있었다. 에퀴닉스는 코로나19 확산과 함께 전 세계적으로 트래픽이 10~40% 증가한 것을 확인했다. 에퀴닉스 제품 관리 담당 수석 부사장 빌 롱은 “희소식은 모든 코어 인프라가 실제로 매우 잘 확장했다는 것이다”라고 평가했다.

트래픽 폭증은 우연히도 에퀴닉스의 기술 업그레이드 주기와 맞아떨어졌다. 에퀴닉스는 몇 년 전부터 10기가비트 링크에서 100기가비트 링크로 네트워크를 업그레이드하고 있다. 롱은 “운 좋게도 코어 용량에 많은 여유분이 있었다”고 밝혔다. 여유분은 증가한 트래픽으로 채워졌지만, 에퀴닉스의 IX 포트가 임계 용량에 도달하지는 않았다.

롱은 에퀴닉스 고객들이 더 빠른 네트워크로 광역 네트워크 업그레이드를 서둘러 진행하고 있으며, 이런 예기치 못한 트래픽 흐름을 에퀴닉스의 IP 트랜짓이나 피어링, 가상 네트워크 서비스가 수용할 수 있는지 검토하고 있다고 밝혔다. 롱은 “2년이 걸릴 것이라고 예상한 일이 단 2주, 2달 만에 일어났다”고 덧붙였다.
 

코로나19가 공급망에 미치는 영향

물리 인프라 측면에서 넷플릭스는 일부 공급망 문제도 극복해야 했다. 템킨은 “이와 관련해 공급망 여러 곳에 불이 난 상태였다”고 말했다. 예를 들어, 넷플릭스의 주 서버 제조업체가 있는 지역에 외출 금지령이 내려졌다. 템킨은 “하루만에 해당 업체에서 가능한 한 많은 장비를 가져 나오려면 어떻게 해야 하는지 파악해야 했다”고 설명했다.

넷플릭스는 이런 공급망 문제 대부분을 다른 공급업체를 확보하는 것으로 해결했다. 템킨은 “전반적으로 우리가 배치한 인프라 대부분을 문제없이 사용할 수 있었다. 특정 시장에서는 네트워크 연결을 강화해야만 했는데, 에퀴닉스 같은 협력업체는 필요한 지역으로 상호 연결을 확장하는 데 뛰어났다”고 밝혔다.

콘텐츠 생산 측면에서는 문제가 많지 않았다. 넷플릭스는 물론 다른 업체도 감염병 확산을 막기 위해 촬영을 중단했기 때문이다. 문제는 어떤 부분의 작업을 다시 시작할 수 있는가이다. 예를 들어, 애니메이션의 후처리나 시각 효과는 보통 집에서 하는 작업이 아니다. 막대한 컴퓨팅 성능과 대역폭이 필요하기 때문이다. 템킨은 “이런 작업을 집 밖에서 할 수 있는 방법을 찾고 있다”고 덧붙였다.

하지만 거시적 차원에서 서버나 네트워크 용량을 필요 이상으로 확보하지 않으려고 한다. 의료나 교육, 협업 등 좀 더 중요한 서비스에 영향을 미칠 수 있기 때문이다. 템킨은 “팀원들에게 어디든 가져올 수 있는 자원은 모두 추적하라고 한다. 하지만 넷플릭스보다 좀 더 중요한 다른 것도 많다는 것도 잘 알고 있다”고 강조했다.

또한 템킨은 팀원들이 일과 생활의 균형 및 건강을 유지하도록 노력하고 있다. 템킨은 결과적으로 “지금 당장 모든 것을 해결하려고 모두가 달려들지 않는 것이 중요하다. 모두가 새로운 기준이 무엇인지 파악하려고 노력하고 있을 뿐이다”라고 말했다. editor@itworld.co.kr


X