2020.04.09

코로나19와 관련된 ISP, 클라우드, 회의 서비스 업계 주간 상태 점검

Tim Greene | Network World
코로나 19의 지속적인 확산으로 직원이 재택근무를 해야 하는 상황을 맞아 ISP, 클라우드, 서비스형 통합 커뮤니케이션(unified communications as a service, UCaaS)로 알려진 회의 서비스 업체에 트래픽이 증가하고 있다.
 
ⓒ ThousandEyes

사우전드아이즈(ThousandEyes)는 트래픽의 증가가 이들 업체가 겪는 운영 중단과 성능에 미치는 영향을 모니터링한다. 또한 이 업체들이 서비스 제공 시 발생하는 흥미로운 사건에 대한 간단한 주간 보고를 본지와 공유했다. 이번 기사에서는 간략한 정보를 공유하며, 매주 새로운 내용이 업데이트된다.  


4월 6일 업데이트

3월 31일 마지막 주간 전 세계 ISP 운영 중단은 3월 네째 주에 비해 9.13% 감소했다. 미국의 경우 16.7% 감소해 120건에서 100건으로 줄었다. 전 세계적으로도 252건에서 229건으로 감소했다. 한편 퍼블릭 클라우드의 경우 22건에서 25건으로 증가했으며, 미국에서는 1건이 발생했다.
 
협업 앱의 중단은 급격히 증가해 세째 주에 비해 전 세계적으로는 260% 이상, 미국에서는 500% 이상 증가했다. 구체적인 수치는 전 세계적으로 8건에서 29건, 미국은 4건에서 25건으로 증가했다.

사우전드아이즈에 따르면, ISP 코젠트 커뮤니케이션즈(Cogent Communications)는 4월 1일 오후 12시 30분부터 12시 35분(미국 서부 기준)까지 대규모 중단 사태를 겪었다. 이 시각에 사용자는 오피스 365와 같은 사이트나 서비스에 연결하는데 지장이 있었다. 코젠트는 다른 업체와 협업하고 있으므로, 해당 업체의 고객도 일부 서비스에 장애를 겪었을 수 있다.

옐프(Yelp), 그리고 AWS와 클라우드플레어(Cloudflare)에서 호스팅하는 일부 애플리케이션과 사이트는 4월 1일 오후 12시 35분부터 12시 40분(미국 서부 기준)까지 중단됐다. 또한 4월 1일, 러시아 ISP 로스텔레콤(Rostelecom)이 레벨 3을 포함해 다른 ISP에 불법 IP 주소 접두사(IP address prefix)를 유출했다. 사우전드아이즈에 따르면, 이러한 누출로 인해 라우팅이 부정확하거나 최적화되지 않는다.

이 경우 유출로 인해 로스텔레콤이 사용자와 영향을 받는 업체 간의 네트워크 경로에 부적절하게 삽입되었다. 레벨 3은 부적절하게 광고된 경로를 다른 ISP에게 전파해, 중단 시간 동안 대규모 트래픽 감소를 초래하는 일련의 이벤트를 발생했다.


3월 31일 업데이트

사우전트아이즈는 2월 중순부터 3월 31일까지 6주 동안의 데이터를 살펴본 결과, ISP, 퍼블릭 클라우드 업체, 회의 서비스와 에지 네트워크(CDN, DNS, 서비스형 보안(security as a service))에서 전 세계적으로 중단이 42% 증가했음을 발견했다.

클라우드 업체의 성능은 전혀 영향을 받지 않았으며, 사실 지난해 몇 주 동안의 운영 중단 건수가 훨씬 많았다.


3월 23일 업데이트

3월 16일부터 23일까지, 전 세계 ISP가 겪은 정전은 230건에서 203건으로 거의 12% 감소했다. 미국의 경우 100건에서 107건으로 7% 증가했다.

퍼블릭 클라우드 중단은 전 세계와 미국 모두 감소했다. 전 세계적으로 21건에서 15 건으로 28% 감소했으며, 미국은 6건에서 0건으로 감소했다. 애틀랜타에서 라우터 오류로 인해 구글의 트래픽에 서비스 중단이 발생했지만, 사우전드아이즈의 중단 기준을 충족할 정도는 아니었고 코로나19와는 관련이 없다.

협업 애플리케이션도 중단 사고는 감소했다. 전 세계적으로 15건에서 6건으로, 미국에서 7건에서 3건으로 줄어 각각 60%와 57% 감소했다.

사우전드아이즈는 심각한 중단 사고로 간주하는 경우를 다음과 같이 강조했다.

“코젠트 커뮤니케이션은 이번 주에 또 다른 대규모 중단을 겪어, 이번 달에만 5번째다. 이번 중단은 캘리포니아 북부와 오리건주에 있는 코젠트 네트워크 일부에서 발생했다. 베릴리(Verily)의 널리 알려진 코로나19 진단 사이트인 projectbaseline.com을 포함해 해당 지역의 사이트와 서비스 이용에 지장이 있었다."

사우전드아이즈는 3월 25일 약 20분 동안 미국 동부 연안의 일부 사용자가 100%의 트래픽 손실로 인해 구글 서비스에 접속하지 못했을 것으로 관찰했다. 조금 뒤에, 구글 엔지니어링 선임 부사장은 이 사고는 미국 조지아 주 애틀랜타에서 발생한 라우터 장애 때문이라고 밝혔다.

미국 북동부 지역 이외의 사용자도 간헐적으로 영향을 받았지만, google.com과 같은 일부 구글 사이트에 접속하려 할 때 사이트 오류가 발생했을 것이다. 이 기간 동안의 HTTP 서버 오류는 다양한 서비스를 올바르게 로드하는데 필요한 백엔드 시스템에 접속할 수 없는 것이다. (구글의 프론트 엔드 서버에서 백엔드 서비스로 연결되는) 영향을 받는 지역을 통과하는 모든 트래픽이 영향을 받아 서버 오류가 발생했을 수 있다.

원격 액세스 VPN의 사용이 증가함에 따라, 주요 통신사는 네트워크 트래픽이 급격히 증가하고 있다. 매주 버라이즌은 20%, 보다폰은 50% 증가했다.

인터넷과 클라우드 트래픽을 추적하는 사우전드아이즈에 따르면, 서비스 제공업체 네트워크에서는 이와 같이 중단이 급증하지는 않았지만, 지난 6주 동안 전 세계와 미국의 다양한 유형의 공급 업체에서 중단이 꾸준히 증가했다.

사우전드아이즈 제품 마케팅 담당 이사인 안젤리크 메디나는 회사 블로그에 따르면, 여기에는 코로나19의 확산과 일치하는 3월 초부터의 전 세계적인 ISP의 서비스 중단 이후의 “상승세 문제”가 포함된다. 전 세계 ISP 중단은 2월 10일부터 3월 19일까지 매주 150건 정도 지속되었으나, 이후 3주 동안 약 200건에서 225건으로 증가했다.

미국에서는 초기에 50건을 조금 넘었고, 3월 첫째 주에는 약 100건에 달했다. 메디나는 “3월 초의 발생 정도는 지난 몇 주 동안 대부분 지속됐다. 코젠트 커뮤니케이션은 3월 11일과 18일에 거의 동일한 대규모 중단을 겪은 ISP 중 하나였으며, 30분 이라는 (인터넷 표준에 의하면) 상당히 긴 기간 동안 지속됐다”고 말했다.

그리고 허리케인 일렉트릭(Hurricane Electric)은 3월 20일 중단을 겪었다. 코젠트보다는 규모가 작고 시기도 짧았지만 수백 개의 사이트와 서비스에 작은 영향을 미쳤다고 말했다.

퍼블릭 클라우드 업계는 코로나19의 영향을 잘 견뎌냈다. 물론 미국에서 중단 건수가 약간 증가했지만 전 세계적으로는 비슷한 수준이다. 이 이유에 대해 메디나는 “AWS, 마이크로소프트 애저, 구글 클라우드와 같은 주요 퍼블릭 클라우드 업체는 트래픽 급증에 대처하기 위해 믿을 수 없을 정도로 잘 갖춰진 대규모 글로벌 네트워크를 구축했다”고 말했다. 그리고 이런 네트워크에 대규모 중단이 발생한다면, 트래픽 혼잡이 아니라 라우팅 또는 인프라 상태 변화 때문이다.

줌(Zoom), 웹엑스(Webex), MSFT 팀즈(Teams), 링센트럴(RingCentral)과 같은 일부 협업 애플리케이션 업체도 3월 9일에서 20일 사이에 성능 문제를 겪었다.

사우전드아이즈는 이들 업체 이름을 밝히지는 않았지만, “상위 3” UCaaS 업체의 성능 수치를 나열했다. 이 가운데 한 업체는 가용성, 대기 시간, 패킷 손실, 지터(jitter)의 실질적인 개선을 보였다. 나머지 두 업체는 “전체적으로 모든 면에서 최소한의 성능 저하를 보였다. 이 업체들의 전례 없는 긴장도로 보아 놀랄 일은 아니다.

각 제공업체는 한 번에 1%에서 4% 이상에 이르는 기간 동안 트래픽 손실이 급증했다. 한 업체의 경우 블로그에서 “지난 주 자체 네트워크의 중단이 급증했다. 이는 외부 ISP에 비해 자체적으로 관리하는 인프라에서 사용자에게 영향을 미치는 네트워크 문제가 발생했음을 의미한다”고 말했다.

또한 “대규모 UCaaS 업체 네트워크 내에서 중단은 매우 드물지만, 최근의 엄청난 사용량 증가는 현재 설계의 한계를 분명히 드러낸다. 새로운 서비스 수요를 충족시키기 위해 용량이 전반적으로 추가되고 있다”고 설명했다.

한편, 사우전드아이즈는 몇 분마다 업데이트 되는 글로벌 인터넷 중단 맵을 자사의 사이트에 새로 도입했다. 최근 그리고 진행중인 중단을 보여준다.


코로나19와 관련 없는 구글 서비스 중단

구글은 3월 26일 미국 동부 연안에서 20분 동안의 중단을 겪었다. 사우전드아이즈는 이 사고에 대한 구글의 성명에 동의하며, 애틀랜타에서 라우터 장애가 발생한 것으로 보인다고 말했다.

이 문제는 google.com과 같은 구글 사이트에서 간헐적으로 서버 오류를 반환하는 사례와 같이, 미국의 다른 지역에도 영향을 미쳤다. 사우전드아이즈는 성명서에서 “이런 500개의 서버 오류는 다양한 서비스를 올바르게 로드하는데 필요한 백엔드 시스템에 접속할 수 없는 것과 같다. (구글 프론트 엔드 서버에서 백엔드 서비스로 연결되는) 영향을 받는 지역을 통과하는 모든 트래픽이 영향을 받아 서버 오류가 발생했을 수 있다”고 말했다.

사우전드아이즈는 이 중단에 대한 인터렉티브 테스트 결과를 여러 곳에 게시했다. editor@itworld.co.kr


2020.04.09

코로나19와 관련된 ISP, 클라우드, 회의 서비스 업계 주간 상태 점검

Tim Greene | Network World
코로나 19의 지속적인 확산으로 직원이 재택근무를 해야 하는 상황을 맞아 ISP, 클라우드, 서비스형 통합 커뮤니케이션(unified communications as a service, UCaaS)로 알려진 회의 서비스 업체에 트래픽이 증가하고 있다.
 
ⓒ ThousandEyes

사우전드아이즈(ThousandEyes)는 트래픽의 증가가 이들 업체가 겪는 운영 중단과 성능에 미치는 영향을 모니터링한다. 또한 이 업체들이 서비스 제공 시 발생하는 흥미로운 사건에 대한 간단한 주간 보고를 본지와 공유했다. 이번 기사에서는 간략한 정보를 공유하며, 매주 새로운 내용이 업데이트된다.  


4월 6일 업데이트

3월 31일 마지막 주간 전 세계 ISP 운영 중단은 3월 네째 주에 비해 9.13% 감소했다. 미국의 경우 16.7% 감소해 120건에서 100건으로 줄었다. 전 세계적으로도 252건에서 229건으로 감소했다. 한편 퍼블릭 클라우드의 경우 22건에서 25건으로 증가했으며, 미국에서는 1건이 발생했다.
 
협업 앱의 중단은 급격히 증가해 세째 주에 비해 전 세계적으로는 260% 이상, 미국에서는 500% 이상 증가했다. 구체적인 수치는 전 세계적으로 8건에서 29건, 미국은 4건에서 25건으로 증가했다.

사우전드아이즈에 따르면, ISP 코젠트 커뮤니케이션즈(Cogent Communications)는 4월 1일 오후 12시 30분부터 12시 35분(미국 서부 기준)까지 대규모 중단 사태를 겪었다. 이 시각에 사용자는 오피스 365와 같은 사이트나 서비스에 연결하는데 지장이 있었다. 코젠트는 다른 업체와 협업하고 있으므로, 해당 업체의 고객도 일부 서비스에 장애를 겪었을 수 있다.

옐프(Yelp), 그리고 AWS와 클라우드플레어(Cloudflare)에서 호스팅하는 일부 애플리케이션과 사이트는 4월 1일 오후 12시 35분부터 12시 40분(미국 서부 기준)까지 중단됐다. 또한 4월 1일, 러시아 ISP 로스텔레콤(Rostelecom)이 레벨 3을 포함해 다른 ISP에 불법 IP 주소 접두사(IP address prefix)를 유출했다. 사우전드아이즈에 따르면, 이러한 누출로 인해 라우팅이 부정확하거나 최적화되지 않는다.

이 경우 유출로 인해 로스텔레콤이 사용자와 영향을 받는 업체 간의 네트워크 경로에 부적절하게 삽입되었다. 레벨 3은 부적절하게 광고된 경로를 다른 ISP에게 전파해, 중단 시간 동안 대규모 트래픽 감소를 초래하는 일련의 이벤트를 발생했다.


3월 31일 업데이트

사우전트아이즈는 2월 중순부터 3월 31일까지 6주 동안의 데이터를 살펴본 결과, ISP, 퍼블릭 클라우드 업체, 회의 서비스와 에지 네트워크(CDN, DNS, 서비스형 보안(security as a service))에서 전 세계적으로 중단이 42% 증가했음을 발견했다.

클라우드 업체의 성능은 전혀 영향을 받지 않았으며, 사실 지난해 몇 주 동안의 운영 중단 건수가 훨씬 많았다.


3월 23일 업데이트

3월 16일부터 23일까지, 전 세계 ISP가 겪은 정전은 230건에서 203건으로 거의 12% 감소했다. 미국의 경우 100건에서 107건으로 7% 증가했다.

퍼블릭 클라우드 중단은 전 세계와 미국 모두 감소했다. 전 세계적으로 21건에서 15 건으로 28% 감소했으며, 미국은 6건에서 0건으로 감소했다. 애틀랜타에서 라우터 오류로 인해 구글의 트래픽에 서비스 중단이 발생했지만, 사우전드아이즈의 중단 기준을 충족할 정도는 아니었고 코로나19와는 관련이 없다.

협업 애플리케이션도 중단 사고는 감소했다. 전 세계적으로 15건에서 6건으로, 미국에서 7건에서 3건으로 줄어 각각 60%와 57% 감소했다.

사우전드아이즈는 심각한 중단 사고로 간주하는 경우를 다음과 같이 강조했다.

“코젠트 커뮤니케이션은 이번 주에 또 다른 대규모 중단을 겪어, 이번 달에만 5번째다. 이번 중단은 캘리포니아 북부와 오리건주에 있는 코젠트 네트워크 일부에서 발생했다. 베릴리(Verily)의 널리 알려진 코로나19 진단 사이트인 projectbaseline.com을 포함해 해당 지역의 사이트와 서비스 이용에 지장이 있었다."

사우전드아이즈는 3월 25일 약 20분 동안 미국 동부 연안의 일부 사용자가 100%의 트래픽 손실로 인해 구글 서비스에 접속하지 못했을 것으로 관찰했다. 조금 뒤에, 구글 엔지니어링 선임 부사장은 이 사고는 미국 조지아 주 애틀랜타에서 발생한 라우터 장애 때문이라고 밝혔다.

미국 북동부 지역 이외의 사용자도 간헐적으로 영향을 받았지만, google.com과 같은 일부 구글 사이트에 접속하려 할 때 사이트 오류가 발생했을 것이다. 이 기간 동안의 HTTP 서버 오류는 다양한 서비스를 올바르게 로드하는데 필요한 백엔드 시스템에 접속할 수 없는 것이다. (구글의 프론트 엔드 서버에서 백엔드 서비스로 연결되는) 영향을 받는 지역을 통과하는 모든 트래픽이 영향을 받아 서버 오류가 발생했을 수 있다.

원격 액세스 VPN의 사용이 증가함에 따라, 주요 통신사는 네트워크 트래픽이 급격히 증가하고 있다. 매주 버라이즌은 20%, 보다폰은 50% 증가했다.

인터넷과 클라우드 트래픽을 추적하는 사우전드아이즈에 따르면, 서비스 제공업체 네트워크에서는 이와 같이 중단이 급증하지는 않았지만, 지난 6주 동안 전 세계와 미국의 다양한 유형의 공급 업체에서 중단이 꾸준히 증가했다.

사우전드아이즈 제품 마케팅 담당 이사인 안젤리크 메디나는 회사 블로그에 따르면, 여기에는 코로나19의 확산과 일치하는 3월 초부터의 전 세계적인 ISP의 서비스 중단 이후의 “상승세 문제”가 포함된다. 전 세계 ISP 중단은 2월 10일부터 3월 19일까지 매주 150건 정도 지속되었으나, 이후 3주 동안 약 200건에서 225건으로 증가했다.

미국에서는 초기에 50건을 조금 넘었고, 3월 첫째 주에는 약 100건에 달했다. 메디나는 “3월 초의 발생 정도는 지난 몇 주 동안 대부분 지속됐다. 코젠트 커뮤니케이션은 3월 11일과 18일에 거의 동일한 대규모 중단을 겪은 ISP 중 하나였으며, 30분 이라는 (인터넷 표준에 의하면) 상당히 긴 기간 동안 지속됐다”고 말했다.

그리고 허리케인 일렉트릭(Hurricane Electric)은 3월 20일 중단을 겪었다. 코젠트보다는 규모가 작고 시기도 짧았지만 수백 개의 사이트와 서비스에 작은 영향을 미쳤다고 말했다.

퍼블릭 클라우드 업계는 코로나19의 영향을 잘 견뎌냈다. 물론 미국에서 중단 건수가 약간 증가했지만 전 세계적으로는 비슷한 수준이다. 이 이유에 대해 메디나는 “AWS, 마이크로소프트 애저, 구글 클라우드와 같은 주요 퍼블릭 클라우드 업체는 트래픽 급증에 대처하기 위해 믿을 수 없을 정도로 잘 갖춰진 대규모 글로벌 네트워크를 구축했다”고 말했다. 그리고 이런 네트워크에 대규모 중단이 발생한다면, 트래픽 혼잡이 아니라 라우팅 또는 인프라 상태 변화 때문이다.

줌(Zoom), 웹엑스(Webex), MSFT 팀즈(Teams), 링센트럴(RingCentral)과 같은 일부 협업 애플리케이션 업체도 3월 9일에서 20일 사이에 성능 문제를 겪었다.

사우전드아이즈는 이들 업체 이름을 밝히지는 않았지만, “상위 3” UCaaS 업체의 성능 수치를 나열했다. 이 가운데 한 업체는 가용성, 대기 시간, 패킷 손실, 지터(jitter)의 실질적인 개선을 보였다. 나머지 두 업체는 “전체적으로 모든 면에서 최소한의 성능 저하를 보였다. 이 업체들의 전례 없는 긴장도로 보아 놀랄 일은 아니다.

각 제공업체는 한 번에 1%에서 4% 이상에 이르는 기간 동안 트래픽 손실이 급증했다. 한 업체의 경우 블로그에서 “지난 주 자체 네트워크의 중단이 급증했다. 이는 외부 ISP에 비해 자체적으로 관리하는 인프라에서 사용자에게 영향을 미치는 네트워크 문제가 발생했음을 의미한다”고 말했다.

또한 “대규모 UCaaS 업체 네트워크 내에서 중단은 매우 드물지만, 최근의 엄청난 사용량 증가는 현재 설계의 한계를 분명히 드러낸다. 새로운 서비스 수요를 충족시키기 위해 용량이 전반적으로 추가되고 있다”고 설명했다.

한편, 사우전드아이즈는 몇 분마다 업데이트 되는 글로벌 인터넷 중단 맵을 자사의 사이트에 새로 도입했다. 최근 그리고 진행중인 중단을 보여준다.


코로나19와 관련 없는 구글 서비스 중단

구글은 3월 26일 미국 동부 연안에서 20분 동안의 중단을 겪었다. 사우전드아이즈는 이 사고에 대한 구글의 성명에 동의하며, 애틀랜타에서 라우터 장애가 발생한 것으로 보인다고 말했다.

이 문제는 google.com과 같은 구글 사이트에서 간헐적으로 서버 오류를 반환하는 사례와 같이, 미국의 다른 지역에도 영향을 미쳤다. 사우전드아이즈는 성명서에서 “이런 500개의 서버 오류는 다양한 서비스를 올바르게 로드하는데 필요한 백엔드 시스템에 접속할 수 없는 것과 같다. (구글 프론트 엔드 서버에서 백엔드 서비스로 연결되는) 영향을 받는 지역을 통과하는 모든 트래픽이 영향을 받아 서버 오류가 발생했을 수 있다”고 말했다.

사우전드아이즈는 이 중단에 대한 인터렉티브 테스트 결과를 여러 곳에 게시했다. editor@itworld.co.kr


X