2019.08.27

“가상화, 분산, 서드파티, 온프레미스” 4가지 백업·복구 해결 사례

Sandra Gittlen | Network World
데이터 백업과 복구가 마치 ‘블랙박스’와 같은 경우가 있다. 재앙에 가까운 피해가 일어날 때까지 문제를 제대로 인식하지 못하는 경우가 많기 때문이다. 그렇지만 클라우드와 하이브리드라는 선택지가 확대되고 있다는 점에서 개선의 여지가 있다고 볼 수 있다.

명의 네트워크 전문가가 들려준 실제 사례에서 조직의 백업과 복구 프로세스를 강화하는 조치를 취해야 한다는 점을 깨닫게 된 순간과 그것을 계기로 취한 조치의 경험을 물었다.
 

테이프 백업이 지나치게 많아진 캔자스 대학

문제를 깨닫게 된 순간: 2011년 5월, 토네이도가 미국 미주리 주 조플린을 강타했다. 인근 마을에서 자원봉사 소방대장을 맡고 있던 부서 피어슨이 구조 요청을 받았다. 캔자스 주 피츠버그 소재 피츠버그 주립대학교(PSU)에서 인프라 및 보안 담당 디렉터로 일하고 있는 피어슨은 “잘 알고 있었던 마을이었는데, 아무 것도 알아볼 수 없는 상태로 변해 있었다. 사람들이 길을 찾을 수 있도록 거리에 교차로 이름을 페인트로 표시했을 정도였다.”고 말했다.

미주리 주 조플린 소재 데이터센터에서 일하고 있던 동료는 네트워크를 복구하는 방법을 찾는 것은 둘째 치고, 관련된 장소를 찾는 것에도 어려움을 겪었다. PSU는 테이프 백업을 매주 순환시키는 방식으로 사용하고 있었고, 이를 은행 금고에 보관하고 있었다. 그는 지역의 기상 조건을 감안했을 때, 이런 방식이 충분할 정도의 ‘신뢰도’를 제공하지 않는다는 점을 깨달았다. 피어슨은 “우리가 사용하고 있는 방식의 취약점을 곰곰이 생각해야만 했다”고 말했다.
 

분산을 통한 지리적 다양성 확보

조치: 피어슨과 부서원들은 가장 먼저 지리적 취약성을 해결하는 조치를 취했다. Dell이퀄로직(Equalogic) 스토리지 어레이를 추가 설치하고, 가상 컴퓨팅 용량의 50%를 대학의 주 데이터센터가 위치한 캠퍼스 건너편 도서관 지하로 옮겼다. 또 고속 파이버 네트워크를 사용하는 캔자스 리서치 앤 에듀케이션 네트워크를 통해 PSU와 연결이 되어있는 WSU(Wichita State University)에 Dell MD3200 스토리지 어레이를 추가 설치했다. 하루 몇 차례, 두 번째 보관 장소(도서관)로 데이터를 수동 복제했다. 그리고 야간에 WSU로 백업을 보냈다. 이를 통해 기존 사용했던 번거로운 테이프 방식을 없앴다.

피어슨은 “금고에서 회수한 테이프는 1주 정도 된 것들이며, 복구에 하루가 소요되었다. 여기에 더해 주 보관 장소와 2차 보관 장소에서 재해가 발생할 경우, 테이프에서 데이터를 복구하기 더 힘들어진다”고 설명했다.

도서관과 WSU가 잘 작동했지만, PSU 부서는 백업과 복구 프로세스를 한층 더 강화하기로 결정을 내렸다. 그리고 자동 오케스트레이션에 헤드빅 분산형 스토리지 플랫폼(소프트웨어 정의 스토리지)을 도입했다. 헤드빅은 주 데이터센터, 도서관, WSU라는 여러 노드의 실시간 데이터 복제 관리에 합의 기반 정책을 사용한다. 그는 “3개 노드 중 2개가 가동되는 경우, 데이터에 액세스할 수 있다”고 말했다.

최근 계획에 없던 라우터 리부팅 문제로 WSU에 대한 링크가 일시적으로 끊기면서 시스템을 테스트할 기회가 생겼다. 피어슨은 “헤드빅은 문제를 포착했고, 15분 뒤 링크가 복구되는 즉시 WSU 시스템을 다시 가동시켰다. 그 동안, 우리 데이터센터는 정상적으로 가동되었다”고 말했다.

헤드빅은 유닉스 서버에 호스팅 되어 있고, iSCSI 연결을 사용하는 대학의 레가시 시스템도 훌륭히 지원한다. 피어슨은 “우리가 조사했던 업체들 중 이런 종류의 레가시 구성(대학이 사용하고 있는)을 지원하지 않는 업체가 대부분이었다. 그러나 헤드빅은 이를 훌륭히 지원한다. 헤드빅의 클라이언트 ‘프록시’ 인터페이스(작은 물리, 또는 가상 리눅스 서버)는 헤드빅 스토리지 환경을 연결하는 멀티프로토콜 커넥터 기능을 하며, NFS와 아마존 S3, 심지어 iSCSI 같은 다양한 록 및 객체 지향형 프로토콜을 제공한다.”고 설명했다. 

PSU의 IT 부서는 노드 가동을 중단시키고 응답 시간을 기록하는 등 정기적인 유지보수 활동의 일환으로 복구 용이성을 테스트한다. 모든 스토리지 네트워크 구성을 기록하고, 자주 업데이트한다. 

피어슨은 “자원봉사 소방대와 조플린에서의 경험 덕분에 ‘당연하게 받아들일 수 있는 것은 없다'는 점을 깨달었다. 가능한 지리적으로 다양하게 스토리지 네트워크를 구성하는 것이 좋다”고 말했다.
 

백업 취약성을 강화한 미국 교정 서비스국

문제를 깨닫게 된 순간: 미국 아이오와 주 교정 서비스국의 시스템 관리자인 드웨인 칼드웰은 “사람으로 초래된 문제, 자연 재해라는 두 차례의 문제가 백업과 복구 방식을 변화시키는 계기가 되었다”고 설명했다. 칼드웰은 아이오와 북동부의 11개 카운티를 대상으로 교정 관련 서비스를 제공하는 DCS 산하 ‘제1사법권’에서 일하고 있다.

관리감독 직종의 사용자 한 명이 랜섬웨어에 감염된 웹 사이트를 방문했다. 이 사용자는 해당 웹사이트에 랜섬웨어가 있는 것을 몰랐다. 칼드웰은 “그 사람의 잘못이 아니었다”고 말했다. 어쨌든 이 랜섬웨어가 주 파일 시스템에 침입을 했다. 그러나 칼드웰과 부서원이 꽤 빠르게 사고를 저지할 수 있었다. 복구에 쓸 백업을 마련해뒀기 때문이다. 그러나 정상 운영 상태로 복구하는 데 예상보다 많은 시간이 소요되었다. 그는 “직원 대상 트레이닝이 도움이 되기는 하지만, 소셜 엔지니어링은 통제할 수 없는 부분이다. 통제할 수 있는 부분은 복구 시간뿐”이라고 말했다.

두 번째 계기는 폭풍우로 건물에 누수 사고가 발생했던 때이다. 주 (데이터 보관)사이트인 건물이었다. 그리고 보조 사이트가 위치한 건물에는 정전 사고가 발생했다. 칼드웰은 “완전한 다운타임이 발생할 정도로 취약할 것이라고는 생각도 못했다. 그런데 그런 일이 일어난 것”이라고 말했다. 주 사이트와 보조 사이트 위치를 가까이에 두고, 다른 대안은 없는 방식은 신뢰도가 아주 낮을 수밖에 없다.
 

가상화로 데이터 복구 속도를 앞당김

조치: DCS와 교정국은 최근 몇 년 간 가상 데스크탑 인프라를 사용하는 등 컴퓨팅 환경을 가상화 하는 노력을 경주했다. 칼드웰에 따르면, DCS 산하 ‘제1 사법권’은 약 80%의 환경을 가상화했다. 이를 통해 새로운 데이터 백업 및 복구 계획을 훨씬 더 단순하게 구현할 수 있었다.

DCS는 데이터센터와 원격 사이트의 긴급 복구, 데이터 보호, VDI 처리에 뉴타닉스 코어 하이퍼컨버지드 인프라를 사용하고 있다. 그는 “누군가 실수를 저질렀을 때 보이지 않는 장소에서 자동으로 백업과 복구가 이뤄지도록 정책을 설정할 수 있다”고 말했다.

뉴타닉스 시스템은 주기적으로 프로덕션 환경의 스냅샷을 캡처해 저장한다. 덕분에 랜섬웨어 공격을 받는 등의 문제가 발생할 경우, 칼드웰과 부서원들은 15분마다 생성되는 스냅샷의 가장 최신 상태로 시스템을 자동 복구할 수 있다.

IT 부서는 서버 ROM 가동을 중단했고, 특정 노드를 가동 중단하는 과정이 포함된, 복구 시간 테스트 프로세스를 개발했다. 그는 “특정 노드의 VM이 다른 노드에서 다시 가동되기까지 얼마나 많은 시간이 소요되는지 파악하는 데 목적을 두고 있다”고 설명했다.

보호 관찰과 교정 등 대부분의 애플리케이션에 반드시 데이터가 필요하기 때문에 애플리케이션과 함께 데이터가 복구된다. 그는 “사용자는 애플리케이션만큼이나 역사적 데이터에도 액세스할 필요성이 있다”고 설명했다.

홍수나 폭풍우로 인해 뉴타닉스 시스템의 데이터를 사용할 수 없는 경우, 칼드웰은 같은 도시와 다른 지역에 있는 EMC 데이터 도메인 스토리지 어플라이언스에 저장된 증분형 백업을 활용할 수 있다. 이 경우, 지리적으로 가까울 수록 더 자주 백업이 된다. 가장 좋은 백업을 가상 샌드박스 환경으로 보낸 다음, 이후 주 데이터센터로 보낸다.

지금은 과거 어느 때보다 백업 솔루션의 ‘보편성’이 높아진 상태이다. 과거에는 테이프를 복구하는 환경을 원래 구성에 정확히 일치시켰어야 했다. 하이퍼바이저 환경의 경우, 더 빠르면서 효율적으로 데이터를 사용할 수 있는 상태로 만들 수 있다. 가상화 된 환경과 자동화 덕분에, IT 부서원 2명이 스토리지와 관련된 모든 작업을 이행할 수 있게 된 것이다. 칼드웰은 “백업과 복구를 책임지면서, 다른 일도 할 수 있게 되었다”고 설명했다.
 



2019.08.27

“가상화, 분산, 서드파티, 온프레미스” 4가지 백업·복구 해결 사례

Sandra Gittlen | Network World
데이터 백업과 복구가 마치 ‘블랙박스’와 같은 경우가 있다. 재앙에 가까운 피해가 일어날 때까지 문제를 제대로 인식하지 못하는 경우가 많기 때문이다. 그렇지만 클라우드와 하이브리드라는 선택지가 확대되고 있다는 점에서 개선의 여지가 있다고 볼 수 있다.

명의 네트워크 전문가가 들려준 실제 사례에서 조직의 백업과 복구 프로세스를 강화하는 조치를 취해야 한다는 점을 깨닫게 된 순간과 그것을 계기로 취한 조치의 경험을 물었다.
 

테이프 백업이 지나치게 많아진 캔자스 대학

문제를 깨닫게 된 순간: 2011년 5월, 토네이도가 미국 미주리 주 조플린을 강타했다. 인근 마을에서 자원봉사 소방대장을 맡고 있던 부서 피어슨이 구조 요청을 받았다. 캔자스 주 피츠버그 소재 피츠버그 주립대학교(PSU)에서 인프라 및 보안 담당 디렉터로 일하고 있는 피어슨은 “잘 알고 있었던 마을이었는데, 아무 것도 알아볼 수 없는 상태로 변해 있었다. 사람들이 길을 찾을 수 있도록 거리에 교차로 이름을 페인트로 표시했을 정도였다.”고 말했다.

미주리 주 조플린 소재 데이터센터에서 일하고 있던 동료는 네트워크를 복구하는 방법을 찾는 것은 둘째 치고, 관련된 장소를 찾는 것에도 어려움을 겪었다. PSU는 테이프 백업을 매주 순환시키는 방식으로 사용하고 있었고, 이를 은행 금고에 보관하고 있었다. 그는 지역의 기상 조건을 감안했을 때, 이런 방식이 충분할 정도의 ‘신뢰도’를 제공하지 않는다는 점을 깨달았다. 피어슨은 “우리가 사용하고 있는 방식의 취약점을 곰곰이 생각해야만 했다”고 말했다.
 

분산을 통한 지리적 다양성 확보

조치: 피어슨과 부서원들은 가장 먼저 지리적 취약성을 해결하는 조치를 취했다. Dell이퀄로직(Equalogic) 스토리지 어레이를 추가 설치하고, 가상 컴퓨팅 용량의 50%를 대학의 주 데이터센터가 위치한 캠퍼스 건너편 도서관 지하로 옮겼다. 또 고속 파이버 네트워크를 사용하는 캔자스 리서치 앤 에듀케이션 네트워크를 통해 PSU와 연결이 되어있는 WSU(Wichita State University)에 Dell MD3200 스토리지 어레이를 추가 설치했다. 하루 몇 차례, 두 번째 보관 장소(도서관)로 데이터를 수동 복제했다. 그리고 야간에 WSU로 백업을 보냈다. 이를 통해 기존 사용했던 번거로운 테이프 방식을 없앴다.

피어슨은 “금고에서 회수한 테이프는 1주 정도 된 것들이며, 복구에 하루가 소요되었다. 여기에 더해 주 보관 장소와 2차 보관 장소에서 재해가 발생할 경우, 테이프에서 데이터를 복구하기 더 힘들어진다”고 설명했다.

도서관과 WSU가 잘 작동했지만, PSU 부서는 백업과 복구 프로세스를 한층 더 강화하기로 결정을 내렸다. 그리고 자동 오케스트레이션에 헤드빅 분산형 스토리지 플랫폼(소프트웨어 정의 스토리지)을 도입했다. 헤드빅은 주 데이터센터, 도서관, WSU라는 여러 노드의 실시간 데이터 복제 관리에 합의 기반 정책을 사용한다. 그는 “3개 노드 중 2개가 가동되는 경우, 데이터에 액세스할 수 있다”고 말했다.

최근 계획에 없던 라우터 리부팅 문제로 WSU에 대한 링크가 일시적으로 끊기면서 시스템을 테스트할 기회가 생겼다. 피어슨은 “헤드빅은 문제를 포착했고, 15분 뒤 링크가 복구되는 즉시 WSU 시스템을 다시 가동시켰다. 그 동안, 우리 데이터센터는 정상적으로 가동되었다”고 말했다.

헤드빅은 유닉스 서버에 호스팅 되어 있고, iSCSI 연결을 사용하는 대학의 레가시 시스템도 훌륭히 지원한다. 피어슨은 “우리가 조사했던 업체들 중 이런 종류의 레가시 구성(대학이 사용하고 있는)을 지원하지 않는 업체가 대부분이었다. 그러나 헤드빅은 이를 훌륭히 지원한다. 헤드빅의 클라이언트 ‘프록시’ 인터페이스(작은 물리, 또는 가상 리눅스 서버)는 헤드빅 스토리지 환경을 연결하는 멀티프로토콜 커넥터 기능을 하며, NFS와 아마존 S3, 심지어 iSCSI 같은 다양한 록 및 객체 지향형 프로토콜을 제공한다.”고 설명했다. 

PSU의 IT 부서는 노드 가동을 중단시키고 응답 시간을 기록하는 등 정기적인 유지보수 활동의 일환으로 복구 용이성을 테스트한다. 모든 스토리지 네트워크 구성을 기록하고, 자주 업데이트한다. 

피어슨은 “자원봉사 소방대와 조플린에서의 경험 덕분에 ‘당연하게 받아들일 수 있는 것은 없다'는 점을 깨달었다. 가능한 지리적으로 다양하게 스토리지 네트워크를 구성하는 것이 좋다”고 말했다.
 

백업 취약성을 강화한 미국 교정 서비스국

문제를 깨닫게 된 순간: 미국 아이오와 주 교정 서비스국의 시스템 관리자인 드웨인 칼드웰은 “사람으로 초래된 문제, 자연 재해라는 두 차례의 문제가 백업과 복구 방식을 변화시키는 계기가 되었다”고 설명했다. 칼드웰은 아이오와 북동부의 11개 카운티를 대상으로 교정 관련 서비스를 제공하는 DCS 산하 ‘제1사법권’에서 일하고 있다.

관리감독 직종의 사용자 한 명이 랜섬웨어에 감염된 웹 사이트를 방문했다. 이 사용자는 해당 웹사이트에 랜섬웨어가 있는 것을 몰랐다. 칼드웰은 “그 사람의 잘못이 아니었다”고 말했다. 어쨌든 이 랜섬웨어가 주 파일 시스템에 침입을 했다. 그러나 칼드웰과 부서원이 꽤 빠르게 사고를 저지할 수 있었다. 복구에 쓸 백업을 마련해뒀기 때문이다. 그러나 정상 운영 상태로 복구하는 데 예상보다 많은 시간이 소요되었다. 그는 “직원 대상 트레이닝이 도움이 되기는 하지만, 소셜 엔지니어링은 통제할 수 없는 부분이다. 통제할 수 있는 부분은 복구 시간뿐”이라고 말했다.

두 번째 계기는 폭풍우로 건물에 누수 사고가 발생했던 때이다. 주 (데이터 보관)사이트인 건물이었다. 그리고 보조 사이트가 위치한 건물에는 정전 사고가 발생했다. 칼드웰은 “완전한 다운타임이 발생할 정도로 취약할 것이라고는 생각도 못했다. 그런데 그런 일이 일어난 것”이라고 말했다. 주 사이트와 보조 사이트 위치를 가까이에 두고, 다른 대안은 없는 방식은 신뢰도가 아주 낮을 수밖에 없다.
 

가상화로 데이터 복구 속도를 앞당김

조치: DCS와 교정국은 최근 몇 년 간 가상 데스크탑 인프라를 사용하는 등 컴퓨팅 환경을 가상화 하는 노력을 경주했다. 칼드웰에 따르면, DCS 산하 ‘제1 사법권’은 약 80%의 환경을 가상화했다. 이를 통해 새로운 데이터 백업 및 복구 계획을 훨씬 더 단순하게 구현할 수 있었다.

DCS는 데이터센터와 원격 사이트의 긴급 복구, 데이터 보호, VDI 처리에 뉴타닉스 코어 하이퍼컨버지드 인프라를 사용하고 있다. 그는 “누군가 실수를 저질렀을 때 보이지 않는 장소에서 자동으로 백업과 복구가 이뤄지도록 정책을 설정할 수 있다”고 말했다.

뉴타닉스 시스템은 주기적으로 프로덕션 환경의 스냅샷을 캡처해 저장한다. 덕분에 랜섬웨어 공격을 받는 등의 문제가 발생할 경우, 칼드웰과 부서원들은 15분마다 생성되는 스냅샷의 가장 최신 상태로 시스템을 자동 복구할 수 있다.

IT 부서는 서버 ROM 가동을 중단했고, 특정 노드를 가동 중단하는 과정이 포함된, 복구 시간 테스트 프로세스를 개발했다. 그는 “특정 노드의 VM이 다른 노드에서 다시 가동되기까지 얼마나 많은 시간이 소요되는지 파악하는 데 목적을 두고 있다”고 설명했다.

보호 관찰과 교정 등 대부분의 애플리케이션에 반드시 데이터가 필요하기 때문에 애플리케이션과 함께 데이터가 복구된다. 그는 “사용자는 애플리케이션만큼이나 역사적 데이터에도 액세스할 필요성이 있다”고 설명했다.

홍수나 폭풍우로 인해 뉴타닉스 시스템의 데이터를 사용할 수 없는 경우, 칼드웰은 같은 도시와 다른 지역에 있는 EMC 데이터 도메인 스토리지 어플라이언스에 저장된 증분형 백업을 활용할 수 있다. 이 경우, 지리적으로 가까울 수록 더 자주 백업이 된다. 가장 좋은 백업을 가상 샌드박스 환경으로 보낸 다음, 이후 주 데이터센터로 보낸다.

지금은 과거 어느 때보다 백업 솔루션의 ‘보편성’이 높아진 상태이다. 과거에는 테이프를 복구하는 환경을 원래 구성에 정확히 일치시켰어야 했다. 하이퍼바이저 환경의 경우, 더 빠르면서 효율적으로 데이터를 사용할 수 있는 상태로 만들 수 있다. 가상화 된 환경과 자동화 덕분에, IT 부서원 2명이 스토리지와 관련된 모든 작업을 이행할 수 있게 된 것이다. 칼드웰은 “백업과 복구를 책임지면서, 다른 일도 할 수 있게 되었다”고 설명했다.
 



X