이런 모든 시스템을 연결하는 것은 한 시스템에서 다른 시스템으로 데이터를 이동하는 데이터 처리 도구인 파이프, 배관, 필터인 셈이다. 데이터 소스와 어플라이언스가 적은 소규모 조직에서는 데이터 프로세스가 비교적 간단하다. 하지만 대기업은 최종 사용자의 요구와 다양한 데이터 유형을 충족하기 위해 더 광범위한 애플리케이션이 필요한 경우가 많다.
여기서는 한 시스템에서 다른 시스템으로 데이터를 이동하는 데이터 처리 도구인 데이터 파이프라인에 대해 자세히 살펴본다. 데이터 파이프라인의 기본 사항과 이를 구현하는 데 사용되는 다양한 아키텍처 및 플랫폼을 소개한다. 또한 데이터 파이프라인이 지원하는 다양한 비즈니스 목표와 생성형 AI와 함께 등장한 몇 가지 새로운 사용례도 살펴보겠다. 마지막으로 데이터 변환, 데이터 운영, 데이터 파이프라인의 향후 발전 방향에 대해서도 논의할 것이다.
데이터 파이프라인 : 데이터를 이동하는 한 가지 방법
데이터 이동에는 데이터 복제, 데이터 마이그레이션, 데이터 동기화 등 여러 가지 운영 기능이 포함된다. 하지만 비즈니스 요구에 따른 데이터 이동을 생각할 때, 다음 세 가지 기능이 가장 많이 사용된다.- 데이터 통합은 여러 소스에서 데이터를 추출해 다운스트림 사용을 위해 결합하는 것으로, 자동화와 수동 데이터 처리를 혼합해 사용하는 경우가 많다.
- 데이터 파이프라인은 자동화를 의미하며, 한 시스템의 데이터를 다운스트림 소비자가 액세스할 수 있도록 하지만 반드시 실시간일 필요는 없다.
- 데이터 스트림은 성능, 지연 시간, 오류율과 관련된 목표 서비스 수준 목표를 충족하는 확장성이 뛰어난 실시간의 강력한 데이터 파이프라인을 의미한다.
다시 한번 강조하지만, 데이터 통합, 파이프라인, 스트림은 시스템 간에 데이터를 이동하고 공유할 수 있는 배관이다. 데이터 관리 아키텍처가 여러 위치에 있는 여러 건물의 아파트처럼 분산되어 있다면, 보다 강력하고 확장 가능한 데이터 공유를 지원하기 위해 데이터 메시와 데이터 패브릭, 마스터 데이터 관리 기술과 같은 도구도 필요할 수 있다.
데이터 파이프라인 기술
데이터 파이프라인은 다양한 형태를 취하지만, 데이터 자동화 및 공유를 위한 기본 요소이다. 데이터 파이프라인은 웹후크, API, 퍼브-서브 패턴(Pub-sub pattern) 또는 IFTTT 서비스처럼 간단할 수도 있고, 더 정교한 데이터 파이프라인 설계 패턴을 통합하도록 확장할 수도 있다. 데이터 파이프라인에는 다음과 같은 요소가 포함된다.- 일괄 처리 아키텍처. 데이터 이동이 실시간이 아니며, 레코드 그룹이 고정된 일정에 따라 한 시스템에서 다른 시스템으로 이동되거나 이벤트에 의해 트리거되는 아키텍처.
- 이벤트 중심 아키텍처. 데이터 생산자, 소비자, 변환 서비스를 연결하는 확장 가능한 접근 방식을 제공한다.
- 람다 및 카파 아키텍처. 실시간 및 일괄 처리 기능을 결합한다.
- 마이크로서비스 기반 데이터 파이프라인. 상대적으로 규모가 작으며, 독립적으로 릴리즈할 수 있고, 보통 단일 개발팀에서 관리한다.
프리사이즐리(Precisely)의 제품 관리 수석 부사장 에밀리 워싱턴은 “데이터 파이프라인은 데이터를 이동, 변환, 관리해 가치 있는 보고서와 분석이 되기 때문에 모든 엔터프라이즈 데이터 전략의 기본이다"라며, “이런 파이프라인 내에서 데이터 무결성을 보장하는 것은 매우 중요하며, 소스에서 대상으로 데이터를 효율적으로 통합하고, 데이터가 있는 곳에서 데이터를 정리하고, 속성을 추가해 데이터가 의도된 용도에 적합하고 의사 결정 프로세스에 정보를 제공하는지 확인해야 한다”고 설명했다.
데이터 파이프라인, 통합 및 스트리밍을 위한 플랫폼
데이터 파이프라인 설계 패턴은 AWS 람다, 애저 펑션즈, 또는 구글 클라우드 펑션즈와 같은 서버리스 아키텍처에 배포할 수 있다. 데이터 파이프라인은 데이터 웨어하우스와 데이터 레이크의 구성 요소로 데이터를 이동하고 변환하거나 독립적인 서비스로 배포할 수 있다. 개발자는 거의 모든 언어로 데이터 파이프라인을 코딩할 수 있지만, 데이터 과학자와 엔지니어는 일반적으로 파이썬을 사용한다.파이프라인, 통합 및 스트림을 개발하기 위한 주요 플랫폼과 제품은 다음과 같다.
- SaaS 플랫폼을 연결하는 데이터 파이프라인은 IFTTT, 인테그레이틀리(Integrately), 메이크(Make, 이전의 Integromat), 마이크로소프트 파워오토메이트(PowerAutomate), 퀵베이스(Quickbase), 워카토(Workato), Tray.io, 조호 플로우(Zoho Flow) 등의 데이터 자동화 플랫폼에서 수행할 수 있으며, 이런 도구에서 생성된 파이프라인은 일반적으로 하나의 소스를 하나의 대상으로 연결하고 공통 데이터 변환 기능을 제공한다.
- 가트너 매직 쿼드런트의 상위 데이터 통합 플랫폼 업체로는 앱 이니시오(Ab Initio), AWS, 디노도(Denodo), 파이브트랜(Fivetran), 구글, IBM, 인포매티카, K2view, 오라클, 마틸리언(Matillion), 마이크로소프트, 팔란티어(Palantir), 프리사이즐리 클릭(Precisely Qlik), SAP, 스냅로직(SnapLogic), 탈렌드(Talend), 팁코 등이 있다.
- 데이터 파이프라인 플랫폼에는 액티언(Actian), 아파치 에어플로우(Apache Airflow), 어센드아이오(Ascend.io), 아스테라(Astera), 아스트로노머(Astronomer), AWS 글루, 씨데이터(Cdata), 데이터브릭스, 드레미오, 디비티 랩스(dbt Labs), 헤보(Hevo), Integrate.io, 넥슬라(Nexla), 펠리칸(Peliqan), 프로페시(Prophecy), 리버리(Rivery), 스카이비아(Skyvia), 스티치(Stitch), 스톤브랜치(Stonebranch). 스팀세트(StreamSets)가 있다.
- 데이터 파이프라인은 서비스형 통합 플랫폼(IPaaS)의 기능이기도 하며, 가트너의 2024년 매직 쿼드런트에는 부미, 셀리고, 인포매티카, 지터빗, 마이크로소프트, 오라클, 세일즈포스, SAP, 스냅로직, 소프트웨어 AG, 트레이.io, 워크아토의 플랫폼이 포함돼 있다.
- 데이터 스트리밍 플랫폼에는 아파치 핑크(Apache Fink), 아파치 카프카, 아파치 펄사, 아파치 스톰, AWS 키네시스, 아타카마(Ataccama), Azure 스팀 애널리틱스, 클라우데라, 콘플루언트(Confluent), 데이터스택스(DataStax), 구글 클라우드 데이터플로우, 헤이즐캐스트(Hazelcast), 프라베가(Pravega), 레드햇, 레드판다, 레디스, 스파크 스트럭처드 스트리밍(Spark Structured Streaming), 스트림네이티브, 팁코가 포함된다.
데이터 통합 및 파이프라인 기능은 또한 많은 데이터베이스, 데이터 웨어하우스, 데이터 레이크, AI/ML 워크플로우우 플랫폼에 내장되어 있다.
레이턴트뷰 애널리틱스(LatentView Analytics)의 데이터 엔지니어링 책임자인 수닐 칼라는 “데이터 파이프라인 구축은 최신 데이터 관리의 중요한 측면이지만, 많은 기술과 아키텍처 및 설계 패턴이 있기 때문에 복잡할 수 있다"라며, “데이터 양이 증가함에 따라 효율적인 데이터 파이프라인의 중요성이 점점 더 커지고 있다”고 강조했다.
다양한 비즈니스 목표를 지원하는 파이프라인
기본적인 데이터 파이프라인은 여러 기록 시스템에서 정보를 공유할 때마다 필요하다. 예를 들어, 직원 온보딩 워크플로우우에서는 HR, 재무, IT 및 기타 시스템에서 신규 직원을 설정해야 하는 경우가 많다. 일부 사용자 정보는 마이크로소프트 엔트라 ID 같은 디렉터리에 저장할 수 있지만, 각 기록 시스템에서는 신규 직원을 설정하기 위해 몇 가지 공통 사용자 데이터가 필요하다. 데이터 파이프라인은 이런 시스템 간에 워크플로우와 데이터 공유를 트리거하는 한 가지 방법이며, 가장 기본적인 파이프라인은 최소한의 데이터 변환을 통해 한 기록 시스템에서 다른 시스템으로 하나의 정보 레코드를 푸시한다.보다 정교한 데이터 통합 플랫폼은 여러 소스의 데이터를 조인(join)하고, 정교한 다중 레코드 데이터 변환을 수행하고, 하나의 데이터 파이프라인에서 여러 다운스트림 시스템에 연결할 수 있다.
기본적인 단순 데이터 파이프라인 외에도 복잡한 워크플로우를 조율하고, 데이터 과학 활동을 지원하고, IoT 센서 데이터를 처리하는 다양한 비즈니스 사용례가 있다. 생성형 AI, 컴퓨터 비전, AR/VR을 비롯한 새로운 기술을 도입하면, 데이터 파이프라인의 복잡성은 극적으로 높아진다. IT 및 데이터팀은 데이터 관리 전략의 일환으로 현재와 미래의 비즈니스 요구사항을 고려해야 하며, 점점 더 많은 데이터 파이프라인을 개발하고 지원할 방법을 고려해야 한다.
예를 들어, 데이터 과학자는 데이터 파이프라인의 소비자인 동시에 생산자이기도 한다. 쿠모(Kumo)의 엔지니어링 담당 부사장 헤마 라가반은 “데이터 과학자는 데이터를 머신러닝에 적합한 형태로 만들기 위해 몇 주 또는 몇 달 동안 데이터를 큐레이팅한다. 예를 들어, 애플리케이션 페이지 보기 및 클릭 로그를 조작해 데이터 과학자에게 필요한 필드를 추출하거나 사일로화된 엔지니어링 조직에서 수집한 이벤트에서 제품 이름을 확인하는 등의 작업을 할 수 있다”고 설명했다.
마찬가지로, 개발팀은 애플리케이션 상태를 이해하고, 성능 문제를 진단하며, 오류를 해결하기 위해 데이터 파이프라인을 만든다. 애피카(Apica)의 최고 제품 및 기술 책임자인 란잔 파타사라티는 “데이터 파이프라인의 중요한 하위 집합은 로그, 메트릭, 추적, 알림, 이벤트, 프로필 등 다양한 데이터 유형을 캡처하는 원격 분석 파이프라인으로, IT 운영, 개발, 보안 환경으로부터 수집한다"라며, “텔레메트리 파이프라인은 데이터 정규화, 품질 개선, 혼란 감소, 컨텍스트 지원, 가장 필요한 곳에 데이터의 온디맨드 가용성을 제공해 상당한 비용 절감 효과를 가져온다”고 강조했다.
데이터 파이프라인을 위한 생성형 AI 사용례
워크플로우, 개발 및 데이터 과학 외에 새로운 생성형 AI 사용자 경험도 있다. 데이터 파이프라인은 검색 증강 생성(RAG)을 지원하기 위해 벡터 데이터베이스, 데이터 레이크, 대규모 언어 모델(LLM)을 연결하는 데 필요하다. 이런 연결은 기본적으로 기업 데이터를 생성형 AI 기능과 연결할 수 있게 해 준다.퀵베이스의 엔지니어링 수석 부사장인 존 케네디는 “누구나 프로세스를 간소화하고 생산성을 높이는 AI를 원하지만, 정보, 워크플로우, 팀, 프로젝트를 연결하는 양질의 데이터 파이프라인 없이는 이런 이점을 실현할 수 없다"라며, “데이터의 출처를 이해하고, 무결성을 검증하고, 조직 전체에서 데이터가 사용되면서 어떻게 변화하는지 파악하는 것이 훨씬 더 중요해졌다”고 지적했다.
많은 기업이 머신러닝과 AI를 지원하기 위해 데이터 소스와 분석 기능을 추가하고 있다. 이는 기본 데이터 파이프라인이 머신러닝 모델의 전체 개발, 테스트, 배포, 모니터링 및 재교육을 지원하고(MLOps), 데이터 및 AI 거버넌스 모델을 준수해야 한다는 것을 의미한다.
도미노의 데이터 과학 전략 및 에반젤리즘 책임자인 키엘 칼슨은 “생성형 AI 파이프라인에는 데이터 엔지니어링 단계를 생성하고 조율하는 것도 포함되지만, 더 중요한 것은 모델, 벡터 스토어, 신속한 엔지니어링 단계, 업스트림 예측 AI 모델, 다운스트림 LLM, 다운스트림 시스템과의 통합을 임베딩해야 한다는 것”이라며, “기업은 최소한 데이터 파이프라인 기능을 새로운 데이터 저장소, MLOps 및 ML 거버넌스 기능과 통합해야 한다”고 설명했다.
견실한 데이터 파이프라인에 범위와 비즈니스 수요가 추가되면서 대규모 조직은 데이터 파이프라인 개발 및 업데이트 프로세스를 확장하는 방법을 고려해야 할 것이다. 리버리의 솔루션 엔지니어링 담당 부사장인 테일러 맥가스는 “이런 볼륨을 성공적으로 처리하고 병목 현상을 방지하려면 중앙 집중식 데이터 플랫폼팀은 분산된 팀이 자체 파이프라인을 구축할 수 있도록 지원하는 동시에 데이터 액세스, 클라우드 컴퓨팅 사용량, 실행된 데이터 파이프라인의 상태에 대한 올바른 거버넌스를 유지하는 것 사이에서 적절한 균형을 찾아야 한다”고 제안했다.
데이터 파이프라인에서 혁신 구현하기
데이터 파이프라인의 핵심은 소스 시스템에서 다운스트림 시스템의 요구 사항에 맞게 데이터를 변환하는 데 필요한 데이터 변환이다. 간단한 변환은 파이프라인의 사비자를 위해 단일 레코드를 매핑, 결합 및 정리한다. 보다 복잡한 변환에는 레코드, 문서 및 기타 데이터 유형의 그룹을 집계, 조인, 요약 및 보강하는 것이 포함된다.제비아 데이터(Xebia Data)의 지오바니 란자니는 “전통적으로 데이터 웨어하우스는 소스에서 원시 데이터를 추출하고 변환한 다음 저장하는 추출-변환-로드(ETL) 프로세스를 통해 채워져 왔다. 저장 및 처리 비용이 절감되자 데이터팀은 원시 데이터를 변환(ELT)하기 전에 데이터 웨어하우스에 저장하기 시작했고, 새로운 인사이트를 창출할 수 있는 유연성이 높아졌다.”
아스트로노머의 CTO 줄리안 라네브는 “ETL은 분석을 위해 사전 처리된 데이터가 필요한 시나리오에 적합한 반면, ELT는 데이터 레이크나 클라우드 기반 데이터 웨어하우스와 같은 최신 시스템의 처리 능력을 활용하여 더 많은 양의 데이터를 더 효율적으로 처리할 수 있다"라고 덧붙였다.
ETL과 ELT 변환은 일반적으로 데이터 웨어하우스와 데이터 레이크에 데이터를 로드하는 데이터 파이프라인에 사용되는 용어이다. 전송 중 및 스트리밍 데이터 변환은 데이터 파이프라인이나 스트림이 결과 데이터를 저장하지 않고 프로세스 흐름에서 데이터를 변환할 때 사용되는 용어이다. 사용례로는 실시간 분석, IoT 데이터 스트림, 신용카드 거래 처리, 사기 탐지 등이 있다. 데이터 변환에는 필터링, 집계, 윈도우, 강화 및 이상 징후 탐지가 포함된다.
데이터 파이프라인의 핵심 기능은 데이터의 계보를 추적하는 것이다. 여기에는 데이터의 수명 주기를 드러내고 누가, 언제, 어디서, 왜, 어떻게 데이터가 변경되는지에 대한 질문에 답하는 데 도움이 되는 방법론과 도구가 포함된다. 데이터 파이프라인은 데이터 계보 범위의 일부인 데이터를 변환하며, 데이터 변경을 추적하는 것은 규제를 받는 산업이나 사람의 안전을 고려해야 할 때 매우 중요하다. 데이터 계보 기능을 갖춘 플랫폼으로는 알렉스 솔루션(Alex Solutions0, 앨레이션(Alation), 아틀란(Atlan), 부미, 콜리브라(Collibra), 어윈(Erwin), IBM, 인포매티카, 만타(Manta), 마이크로소프트, 옥토파이(Octopai), 오라클, 프리사이즐리, 세코다(Secoda), 솔리데이터스(Solidatus), SAP, SAS, 탈렌드 등이 있다. 데이터 카탈로그, 데이터 거버넌스, AI 거버넌스 플랫폼 중에도 데이터 계보 기능을 제공하는 솔루션이 있다.
콜리브라의 CEO 펠릭스 반 데 말레는 “비즈니스 및 기술 이해관계자는 심층적인 영향 분석, 규제 준수 개선, 더욱 신뢰할 수 있는 분석을 위해 엔드 투 엔드 계보를 통해 소스 간에 데이터가 어떻게 흐르고, 변환되고, 사용되는지 동등하게 이해해야 한다"라고 강조했다.
데이터 파이프라인을 뒷받침하는 데이터 운영
파이프라인을 배포할 때 파이프라인이 데이터를 정확하게 수신, 변환, 전송하는지 어떻게 알 수 있을까? 데이터 오류가 캡처되고, 단일 레코드 데이터 문제로 인해 파이프라인이 중단되는 일은 없는가? 부하가 많은 상황에서도 파이프라인이 일관성있게 작동하는가? 데이터 원본에 전송 오류가 있을 때 변환이 무력화되거나 중복 레코드가 스트리밍되지는 않는가?이는 데이터 파이프라인에서 발생하는 데이터 운영(DataOps) 문제 중 일부에 불과하다. 쿠모의 라가반은 “일련의 데이터 흐름이 다음 데이터 흐름에 데이터를 공급하는 경우가 많기 때문에 AI 워크플로우의 운영은 특히 어려울 수 있다. 하나의 흐름에서 데이터 손상이 발생하면 다운스트림 파이프라인에 복합적인 영향을 미칠 수 있다”고 지적했다.
머신러닝 모델과 생성형 AI 및 LLM을 지원하는 데 사용되는 데이터 파이프라인은 필요한 데이터 규모와 모델 성능에 대한 사용자의 기대치 때문에 성능과 품질에 대한 우려가 더 크다. VAST 데이터의 현장 현장 CTO이자 전략 책임자인 콜린 타토우는 “생성형 AI 파이프라인과 모델 학습에 사용되는 비정형, 정형, 반정형 데이터 세트의 복원력, 복구 가능성, 재현성은 AI 규모에서 데이터 거버넌스를 더욱 복잡하게 만든다”고 덧붙였다.
데이터옵스 개선을 위한 주요 접근 방식에는 데이터 파이프라인 통합 가시성 보장, 모니터링 도구를 사용해 성능 문제 경고, 데이터 품질 추적, 모델옵스에서 데이터 드리프트에 대한 ML 모델 모니터링 등이 있다. 데이터 통합 가시성 기술로는 액셀데이터(Acceldata), 애피카(Apica), 크리블(Cribl), 데이터키친(DataKitchen), IBM 데이터밴드, 메타플레인(Metaplane), 몬테 카를로(Monte Carlo), 시플렛(Sifflet), 소다(Soda), 언레이블(Unravel), 발리디오(Validio) 등이 있다.
프리사이즐리의 워싱텅은 “파이프라인을 통해 이동하는 데이터를 모니터링하는 것은 분석 및 AI 이니셔티브에 사용되는 데이터의 품질에 영향을 미치기 때문에 매우 중요하다”라며, “데이터 통합 가시성은 실시간 정보를 살펴보고 분석가가 사용하는 데이터를 즉시 신뢰할 수 있게 해준다. 파이프라인을 통해 데이터 통합 가시성을 구현하면 데이터 이상 징후와 이상값을 사용자에게 사전에 경고할 수 있으므로 비즈니스 중단과 비용이 많이 드는 다운스트림 데이터 및 분석 문제를 방지하는 데 도움이 된다”고 설명했다.
데이터옵스의 어려운 측면 중 하나는 API 및 데이터 소스 스키마의 변경으로 인해 발생하는 데이터 파이프라인 문제를 감지하고 신속하게 수정하는 것이다. 생성형 AI는 데이터 파이프라인 개발과 지원을 간소화하는 데이터옵스 및 데이터 엔지니어링 플랫폼으로 부상하고 있다.
앤서로켓(AnswerRocket)의 CTO 마이크 핀리는 “데이터 파이프라인의 스크립트 가능성과 언어 모델의 코드 생성 기능을 결합하면 동적으로 자체 업데이트되는 ETL 프로세스를 얻을 수 있다"라며, “언어 모델의 오류 이해 및 수정 기능을 사용하면 이전에는 일반적인 스키마 변경이나 숫자 오버플로우와 같은 중단으로 인해 파이프라인이 마비됐을 ETL이 자체적으로 복구할 수 있다”고 강조했다.
데이터 파이프라인의 미래
대다수 기업이 분석 및 AI 기능에 대한 투자를 늘리면서 새로운 데이터 세트를 통합하고 플랫폼 간에 데이터를 연결하는 데이터 파이프라인을 만들어야 할 필요성이 점점 더 커질 것이다. 데이터의 규모와 다양성, 새로운 AI 기능, 새로운 최종 사용자 경험으로 인해 IT 및 데이터 엔지니어링팀은 사실상 데이터 관리 및 통합 전략을 발전시켜야 한다.액셀데이터의 CTO 애쉬윈 라지바는 “데이터 파이프라인은 소스에서 목적지까지 원활한 데이터 흐름을 보장하는 최신 데이터 관리의 토대 역할을 한다"라고 강조했다.
앞서 설명한 비유로 돌아가 보자. 기업은 깨끗한 물을 공급하고 폐기물을 제거하는 중추 역할을 하는 파이프라인이 있는 마을과 도시에 비유할 수 있다. 기업은 기존 데이터 파이프라인을 지속적으로 모니터링하고 개선하는 동시에 확장 영역을 위한 새로운 파이프라인을 개발해야 할 필요가 있다.
editor@itworld.co.kr
함께 보면 좋은 콘텐츠
Sponsored
Seagate
'반박 불가' 하드 드라이브와 SSD에 관한 3가지 진실
ⓒ Getty Images Bank 하드 드라이브가 멸종할 것이라는 논쟁이 10년 넘게 계속되고 있다. 빠른 속도와 뛰어난 성능이 필요한 애플리케이션에 적합한 플래시 스토리지의 연매출이 증가하고 있는 것은 자명한 사실이다. 하지만, 클라우드의 보편화 및 AI 사용 사례의 등장으로 인해 방대한 데이터 세트의 가치가 높아지는 시대에 하드 드라이브는 플래시 스토리지로 대체할 수 없는 가치를 가지고 있다. 전 세계 엑사바이트(EB) 규모 데이터의 대부분을 저장하는 하드 드라이브는 데이터센터에서 그 어느 때보다 필수적이다. 전 세계 데이터 세트의 대부분이 저장된 엔터프라이즈 및 대규모 클라우드 데이터센터는 데이터 성장에서 핵심이 될 것이다. 하드 드라이브와 SSD를 비교하자면, 하드 드라이브 스토리지는 2022년에서 2027년 사이 6,996EB 증가할 것으로 예상되는 반면, SSD는 1,363EB 증가할 것으로 보인다. ⓒ Seagate 생성형 AI 시대에는 콘텐츠를 경제적으로 저장해야 하기 때문에 플래시 기술과 밀접하게 결합된 컴퓨팅 클러스터는 더 큰 하드 드라이브 EB의 다운스트림 수요를 직간접적으로 촉진할 것이다. 하드 드라이브가 왜 데이터 스토리지 아키텍처의 중심이 될 수밖에 없는지는 시장 데이터를 근거로 설명 가능하다. 가격 책정 근거 없는 믿음 : SSD 가격이 곧 하드 드라이브 가격과 같아질 것이다. 사실 : SSD와 하드 드라이브 가격은 향후 10년간 어느 시점에도 수렴하지 않을 것이다. 데이터가 이를 명확하게 뒷받침한다. 하드 드라이브는 SSD에 비해 테라바이트당 비용 면에서 확고한 우위를 점하고 있으며, 이로 인해 하드 드라이브는 데이터센터 스토리지 인프라의 확고한 주춧돌 역할을 하고 있다. IDC 및 포워드 인사이트(Forward Insights)의 연구에 따르면, 하드 드라이브는 대부분의 기업 업무에 가장 비용 효율적인 옵션으로 유지될 것으로 전망된다. 엔터프라이즈 SSD와 엔터프라이즈 하드 드라이브의 TB당 가격 차이는 적어도 2027년까지 6대 1 이상의 프리미엄이 유지될 것으로 예상된다. ⓒ Seagate 이러한 TB당 가격 차이는 장치 구입 비용이 총소유비용(TCO)에서 가장 큰 비중을 차지하는 데이터센터에서 특히 두드러지게 드러난다. 장치 구입, 전력, 네트워킹, 컴퓨팅 비용을 포함한 모든 스토리지 시스템 비용을 고려하면 TB당 TCO는 하드 드라이브 기반 시스템이 훨씬 더 우수하게 나타난다. ⓒ Seagate 따라서, 플래시는 특정 고성능 작업의 수행에 탁월한 스토리지이지만, 하드 드라이브는 당분간 안정적이고 비용 효율적이며 널리 채택된 솔루션을 제공하는 데이터센터에서 계속해서 주류로 사용될 것이다. 공급과 확장의 관계 근거 없는 믿음 : NAND 공급이 모든 하드 드라이브 용량을 대체할 정도로 증가할 수 있다. 사실 : 하드 드라이브를 NAND로 완전히 교체하려면 감당할 수 없는 설비투자(CapEx)가 필요하다. NAND 산업이 모든 하드 드라이브 용량을 대체하기 위해 공급을 빠르게 늘릴 수 있다는 주장은 재정적, 물류적으로 엄청난 비용이 발생한다는 점을 간과한 낙관적인 생각이다. 산업 분석기관 욜 인텔리전스(Yole Intelligence)의 2023년 4분기 NAND 시장 모니터 리포트에 따르면, 전체 NAND 산업은 2015년~2023년 사이 3.1제타바이트(ZB)를 출하하면서 총 매출의 약 47%에 해당하는 2,080억 달러의 막대한 자본 지출을 투자해야 했다. 반면, 하드 드라이브 산업은 데이터센터 스토리지 수요의 거의 대부분을 매우 자본 효율적인 방식으로 해결하고 있다. 씨게이트가 2015년~2023년 사이 3.5ZB의 스토리지를 출하하며 투자한 자본은 총 43억 달러로, 전체 하드 드라이브 매출의 약 5%에 불과하다. 그러나 NAND 산업의 경우 ZB당 약 670억 달러에 해당하는 금액을 투자한 것으로 나타나 하드 드라이브가 데이터센터에 ZB를 공급하는 것이 훨씬 더 효율적임을 알 수 있다. ⓒ Seagate 작업 부하 근거 없는 믿음 : 올 플래시 어레이(AFA)만이 최신 엔터프라이즈 작업 부하의 성능 요구를 충족할 수 있다. 사실 : 엔터프라이즈 스토리지 아키텍처는 일반적으로 디스크 또는 하이브리드 어레이, 플래시, 테이프를 사용하여 특정 작업 부하의 비용, 용량, 성능 요구 사항에 최적화할 수 있도록 미디어 유형을 혼합한다. 기업이 플래시 없이는 최신 작업 부하의 성능 수요를 따라잡지 못할 위험이 있다는 주장은 다음과 같은 3가지 이유로 반박 가능하다. 첫째, 대부분의 최신 작업 부하에는 플래시가 제공하는 성능상의 이점이 필요하지 않다. 전 세계 데이터의 대부분은 클라우드와 대규모 데이터센터에 저장되어 있으며, 이러한 환경에서는 작업 부하 중 극히 일부에만 상당한 성능이 필요하다는 파레토 법칙을 따르고 있다. 둘째, 예산 제약이 있고 데이터 세트가 빠르게 증가하는 기업들은 성능뿐만 아니라 용량과 비용의 균형을 맞춰야 한다. 플래시 스토리지는 읽기 집약적인 시나리오에서는 탁월한 성능을 발휘하지만 쓰기 작업이 증가하면 내구성이 떨어져 오류 수정과 오버프로비저닝에 추가 비용이 발생한다. 또한, 대규모 데이터 세트나 장기 보존의 경우 영역 밀도가 증가하는 디스크 드라이브가 더 비용 효율적인 솔루션일 뿐만 아니라 수천 개의 하드 드라이브를 병렬로 활용하면 플래시를 보완하는 성능을 달성할 수 있다. 셋째, 수많은 하이브리드 스토리지 시스템은 다양한 미디어 유형의 강점을 단일 유닛에 원활하게 통합하고 최대한으로 활용할 수 있도록 세밀하게 조정된 소프트웨어 정의 아키텍처를 사용한다. 이러한 스토리지는 유연성을 제공하므로 기업은 지속적으로 변화하는 요구 사항에 따라 스토리지 구성을 조정할 수 있다. AFA와 SSD는 고성능의 읽기 집약적인 작업에 매우 적합하다. 하지만 하드 드라이브가 이미 훨씬 낮은 TCO로 제공하는 기능을 AFA로 불필요하게 비싼 방법으로 제공하는 것은 비용 효율적이지 않을 뿐만 아니라, AFA가 하드 드라이브를 대체할 수 있다고 주장하는 근거가 될 수 없다.
Seagate
“작지만 큰 영향력” 하드 드라이브의 나노 스케일 혁신
ⓒ Seagate 플래터당 3TB라는 전례 없는 드라이브 집적도를 자랑하는 새로운 하드 드라이브 플랫폼이 등장하며 디지털 시대의 새로운 이정표를 세웠다. 플래터당 3TB를 저장할 수 있다는 것은 동일한 면적에서 스토리지 용량을 기존 드라이브 대비 거의 두 배로 늘릴 수 있다는 것을 의미한다. 이러한 혁신은 데이터 스토리지의 미래와 데이터센터의 디지털 인프라에 괄목할 만한 영향을 미친다. AI의 발전과 함께 데이터의 가치가 그 어느 때보다 높아졌다. IDC에 따르면 2027년에는 전 세계에서 총 291ZB의 데이터가 생성될 것으로 예측되며, 이는 스토리지 제조 용량의 15배 이상일 것으로 보인다. 대부분의 데이터를 호스팅하는 대형 데이터 센터에 저장된 데이터 중 90%가 하드 드라이브에 저장된다. 즉, AI 애플리케이션의 주도로 데이터가 급증함에 따라 물리적 공간을 늘리지 않으면서도 데이터를 저장할 수 있는 스토리지 기술 혁신이 필요하다. 데이터 스토리지 인프라를 업그레이드하는 것은 단순히 기술적인 문제가 아니라 지금 시대가 직면한 규모, 총소유비용(TCO), 지속가능성이라는 과제에 대한 논리적 해답인 셈이다. 열 보조 자기 기록(HAMR) 기술은 선구적인 하드 드라이브 기술로 드라이브 집적도 향상을 위해 지난 20년 동안 수많은 연구를 거쳐 완성되어 왔다. 씨게이트 모자이크 3+ 플랫폼은 이러한 HAMR 기술을 씨게이트만의 방식으로 독특하게 구현한 것으로, 미디어(매체)부터 쓰기, 읽기 및 컨트롤러에 이르는 복잡한 나노 스케일 기록 기술과 혁신적인 재료 과학 역량을 집약한 결정체다. 이 플랫폼은 데이터 비트를 변환하고 자기 및 열 안정성을 유지하면서 더욱 촘촘하게 패킹해서 각 플래터에 훨씬 더 많은 데이터를 안정적이고 효율적으로 저장할 수 있다. 예를 들어, 기존 데이터센터에 있는 16TB 드라이브를 30TB 드라이브로 업그레이드하면 동일한 면적에서 스토리지 용량을 두 배로 늘릴 수 있다. 더 낮은 용량에서 업그레이드한다면 상승 폭은 더욱 커진다. 이 경우, 테라바이트당 전력 소비량이 40% 감소하는 등 스토리지 총소유비용(TCO)이 크게 개선된다. 또한 효율적인 자원 할당과 재활용 재료 사용으로 운영 비용을 절감하고 테라바이트당 탄소 배출량을 55% 감소시켜 데이터센터가 지속 가능성 목표를 달성할 수 있다. 드라이브 집적도 향상은 하이퍼스케일과 프라이빗 데이터센터의 판도를 바꿀 수 있다. 데이터센터가 급증하며 전력사용량과 탄소배출량 역시 늘어나 데이터센터의 지속가능성이 화두가 되고 있는 가운데, 과학기술정보통신부는 ‘탄소중립 기술혁신 추진전략-10대 핵심기술 개발방향’에서 2030년까지 데이터센터 전력소모량을 20% 절감하겠다고 밝힌 바 있다. 이러한 목표에 발맞춰, 집적도를 획기적으로 개선한 대용량 데이터 스토리지를 활용하는 것은 원활하고 지속적인 AI 모델 학습, 혁신 촉진 및 비즈니스 성공을 위해 필수적이다. 엔터프라이즈 데이터센터의 경우 제한된 공간, 전력, 예산에 맞춰 확장할 수 있는 지속 가능한 방법을 찾아야 한다. 하드 드라이브의 집적도 혁신은 점점 더 커져가는 클라우드 생태계와 AI 시대에 대응하는 해답이자, 동일한 공간에 더 많은 엑사바이트를 저장하면서도 자원 사용은 줄이도록 인프라를 확장할 수 있는 방법이다. 이는 글로벌 데이터 영역에서 경쟁력을 유지하고 글로벌 디지털 경제의 선두주자로서 입지를 강화하는 데 매우 중요하다.