이 용어가 등장한 지는 꽤 됐고, ESG(Enterprise Strategy Group)의 애널리스트 존 올트식은 이 용어가 구식이라고 조롱하기도 하지만, 여전히 널리 쓰이는 개념이다. 많은 기업이 데이터 수집과 분석을 중심으로 비즈니스 모델 전체를 구축하면서 증가하는 가치에 상응하는 엄격한 데이터 보호가 필요하게 된 것도 DLP가 여전히 중요하게 여겨지는 요인이다.
DLP의 목적
DLP 업체 디지털 가디언은 DLP의 주요 활용 목적을 3가지로 설명한다.- 개인 식별 정보 보호 및 준법 감시 확보. 많은 기업이 악당의 손에 들어가면 실질적인 피해가 발생할 수 있는 이메일부터 의료 및 금융 정보까지 고객과 비즈니스 계약에 관한 민감한 정보로 가득 찬 대규모 데이터베이스를 보유하고 있다. 데이터를 안전하게 보고해야 하는 이유는 단순히 그것이 옳은 일이기 때문이 아니다. HIPAA부터 GDPR, CCPA에 이르기까지 많은 법률에서 이를 규정하고 일부는 세부 방식까지 의무화하고 있다.
- 지적 재산 보호. 모든 기업은 경쟁자에게 노출하고 싶지 않은 지적 재산과 영업 비밀을 보유하고 있다. DLP의 목적 중 하나는 데이터가 기업 간첩 행위를 통해 유출되거나 부주의로 인해 온라인으로 노출되지 않도록 하는 것이다.
- 데이터 가시성 확보. 데이터 보호 과정에는 인프라 내 데이터의 위치와 이동 경로를 파악하는 것이 포함된다. 퍼블릭 및 하이브리드 클라우드 시대에는 쉽지 않은 일이다. DLP 툴을 이용하면 자체 데이터 인프라를 전반적으로 살펴볼 수 있는 추가적인 이점도 있다.
DLP가 중요한 이유
DLP의 중요성은 적절하게 데이터를 보호하지 않았을 때 발생하는 결과를 보면 알 수 있다. 2019년은 ‘최악의 데이터 유출 기록의 해’로, 수십억 개에 달하는 기록이 노출됐다. IBM은 평균 데이터 유출 비용을 392만 달러로 추산했다.데이터 유출의 빈도와 피해액이 커지는 것 외에도 디지털 가디언은 기업이 더 빈번하게 DLP 서비스를 도입하는 이유 몇 가지를 설명했다. 먼저, CEO, 기타 경영진과 빈번하게 접촉하고 데이터 보호 등의 보안 문제에 대한 가시성을 제공하는 CIO의 권한과 책임이 점차 커지면서 규제 준법 감시가 큰 부분을 차지하고 있다. 또한 많은 DLP 솔루션이 관리형 서비스로 제공되므로, 자체 DLP 정책을 수립해 적용할 내부 인력이 없는 기업에 매력적이다.
데이터 손실 방지의 원리
긱플레어(Geekflare)가 간략하게 설명한 것처럼, DLP는 보호할 민감한 데이터 확인과 손실 방지 등 크게 2가지 지침으로 요약할 수 있다. 물론 디테일에 주의해야 한다. 데이터는 인프라 내에 다양한 상태로 존재할 수 있으므로 민감한 데이터를 확인하는 일은 간단하지 않다.- 사용 중 데이터: RAM, 캐시 메모리, CPU 레지스터 안의 활성 데이터
- 이동 중 데이터: 안전한 내부 또는 공개 인터넷 등의 네트워크를 통해 전송되는 데이터
- 보관 중 데이터: 데이터베이스, 파일시스템, 일종의 백업 스토리지 인프라에 저장된 데이터
기업용 DLP 솔루션은 이 모든 상태의 데이터를 보호하는 통합 툴이며, 하나의 상태에 집중하거나 별도의 단일 용도 툴에 통합할 수도 있다. 예를 들어, 마이크로소프트의 익스체인지 서버는 이메일을 통한 데이터 손실을 방지하는 DLP 기능이 내장돼 있다.
어쨌든, DLP 솔루션은 에이전트 프로그램을 배치해 범위 내의 데이터를 검색한다. 이 프로그램은 다양한 DLP 기법을 사용해 민감하거나 보호할 가치가 있는 데이터를 찾아낸다. 때로는 제공한 문서나 데이터의 사본을 찾는 것도 포함되며, 민감한 데이터를 찾아 방대한 데이터 더미를 뒤지기도 한다. 맥아피의 클라우드 보안 블로그를 보면 이런 기법 중 일부가 설명돼 있다. 주요 내용을 다음과 같다.
- 규칙 기반 일치 또는 정규 표현: 에이전트는 알려진 패턴을 사용해 특정 규칙에 부합하는 데이터를 찾는다. 예를 들어, 16자리 숫자는 일반적으로 신용카드 번호이며 9자리 숫자는 사회보장번호다. 추후 분석을 위해 먼저 문서를 마킹해 두는 경우가 많다.
- 데이터베이스 디지털 지문 또는 정확한 데이터 일치: 에이전트는 미리 사전 제공된 구조화된 데이터에 대한 정확한 일치를 찾는다.
- 정확한 파일 일치: 에이전트는 콘텐츠보다는 해시를 기준으로 문서를 검색한다.
- 부분 문서 일치: 에이전트는 사전 제공 패턴과 부분으로 일치하는 파일을 찾는다. 예를 들어, 다양한 사용자가 작성한 서식의 다양한 버전은 구조가 같기 때문에 이를 이용해 파일의 지문을 채취할 수 있다.
- 통계 분석: 일부 DLP 솔루션은 머신 러닝 또는 베이즈(Bayesian) 분석을 이용해 민감한 데이터를 확인한다. 시스템을 훈련하려면 많은 양의 데이터가 필요하므로 긍정 및 부정 오류에 취약할 수도 있다.
대부분 DLP 솔루션은 기업별 데이터를 찾기 위해 자사만의 맞춤형 규칙 조합을 설정할 수 있다. DLP 솔루션이 민감한 데이터를 찾아내면 해당 데이터를 취급하는 방법을 알아야 한다. 하지만 이는 단순한 기술적 차원의 문제가 아니다. 기업은 다양한 종류의 데이터를 어떻게 취급하고 해당 데이터에 대한 내부 및 외부 사용자의 책임을 판단하기 위해 DLP 전략을 설정해야 한다. 특히, 데이터 보호와 직원의 업무 복잡성 사이에서 균형을 찾아야 한다. 디지털 가디언은 기업 DLP 정책 수립에 대한 가이드를 제공한다.
또한, DLP 전략은 DLP 솔루션으로 이행할 DLP 정책과 DLP 절차에 영향을 미친다. 이런 정책과 절차는 기업이 수립하는 전략을 기술적으로 표현한 것이기도 하다. 이 과정은 제품마다 차이가 있다. 예를 들어 마이크로소프트의 익스체인지 문서에서는 해당 플랫폼에 적용하는 방법과 프로세스를 설명한다.
마지막으로, 솔루션이 수립한 정책을 위반하는 활동을 확인하면 데이터 손실을 방지하기 위해 DLP 보안 컨트롤을 실행한다. 예를 들어, DLP 솔루션이 이메일에 첨부된 민감한 파일을 감지하면 전송자에게 경고하거나 이메일이 전송되지 않도록 한다. 민감한 데이터가 네트워크를 통해 전파되면 DLP 솔루션은 관리자에게 경고하거나 네트워크 액세스를 차단할 수도 있다.
DLP 솔루션을 비교하는 기준
DLP에 대한 기업 관심이 증가하는 이유 중 하나는 CISO의 권한이 커지고 있기 때문이다. 그리고 CISO는 새로운 보안 이니셔티브의 성과를 보여주는 실질적인 수치를 선호한다. 문제는 보안은 정량화가 어렵기로 악명이 높다는 점이다. 마치 짖지 않는 개가 몇 마리인지 세는 것과 같다. 하지만 CISO 플랫폼에 따르면, DLP 솔루션을 평가하는 몇 가지 기준이 있다.- 부여된 정책 예외의 수: 너무 많으면 직원이 업무를 적절히 수행하기에 너무 엄격한 정책을 설정했거나 직원이 안전하지 못한 방식으로 DLP 정책을 우회하고 있을 수 있다.
- 생성된 긍정 오류의 수: 이 수치는 0이어야 이상적이지만 실제로는 달성하기 어렵다. 그러나 이 수치는 정책과 절차가 얼마나 잘 구성돼 있고 솔루션이 데이터를 얼마나 잘 분석하고 있는지를 보여준다.
- 평균 경보 대응 시간: DLP 시스템이 전반적인 보안 태도와 얼마나 잘 통합돼 있고 보안팀이 DLP 경보를 진지하게 받아들이는지를 보여준다.
- 네트워크상에서 관리되지 않는 기기의 수, 지문을 채취하지 않은 데이터베이스의 수, 아직 분류되지 않은 데이터베이스와 상주 데이터의 수: 0보다 큰 수치가 있다면 아직 기업이 제대로 활용하지 못하는 것이다. DLP 솔루션을 적용한 후 네트워크에 이런 목록화 되지 않은 시스템 중 일부가 추가됐다면 인프라에 구축하는 절차에 DLP 정책이 통합되지 않았다는 의미다.
주요 DLP 솔루션
여기서는 현재 시장에 나온 DLP 솔루션을 모두 살펴보지 않겠지만, 일부 눈여겨 볼만한 중요한 제품이 있다. 제품명과 특징을 살펴보자.- 체크 포인트: 더 큰 게이트웨이 아키텍처에 DLP 기능 내장, 네트워크 게이트웨이를 통해 TLS 암호화 트래픽 확인 가능
- 디지털 가디언: 온프레미스 인프라 모니터링을 위한 종점 에이전트와 네트워크 기기가 포함된 클라우드 기반 플랫폼
- 맥아피: 포렌식 분석 기능 포함
- 포스포인트: 규제 준법 감시 확인 및 보고 기능 지원
- 시만텍: 호환되거나 별도 툴로 작동할 수 있는 클라우드, 이메일, 웹, 종점, 스토리지용 모듈 지원
editor@itworld.co.kr