오라클 데이터베이스 20c는 2020년에 나올 예정이었지만, 코로나19 팬데믹 위기가 기업 IT 부서에 미친 영향으로 출시가 취소됐다. 결국 20c에서 계획했던 기능과 특징은 모두 21c에 반영됐다.
오라클 데이터베이스 21c는 주목할 점이 몇 가지 있다. 트랜잭션, 분석, 엔터프라이즈 서버로 활용할 수 있고, 용도에 맞춰 수정할 수 있다. 관계형, 시계열, 그래프, 공간, 텍스트, OLAP, XML, JSON 데이터를 지원한다. 오토ML(AutoML)이 포함해 머신 러닝 모델에 대한 인-데이터베이스 학습을 지원한다. 이 학습에 스토리지 서버나 엑사데이터(Exadata) 하드웨어의 외부 CPU를 활용할 수 있다. 엑사데이터 하드웨어에서 사용할 경우 오라클 데이터베이스 21c는 인텔 옵테인(Intel Optane) 영구 메모리를 완벽하게 활용한다. 오토노머스 데이터베이스는 자동 인덱스 생성을 지원하는데, 클라우드나 온프레미스 기반의 엑사데이터에서 실행하는 오라클 데이터베이스에서 이용할 수 있다.
분석의 경우, 오라클 데이터베이스 21c는 자동으로 메모리에 배치할 열을 구성하고, SIMD 벡터화 해시 조인을 수행하고, 인-메모리 칼럼 및 온-디스크 로우 스토어에 대해 하이브리드 스캔을 지원한다. 인-데이터베이스 프로그래밍의 경우, 오라클 데이터베이스 21c는 자바스크립트와 오라클 데이터베이스 유형 간 인터페이스와 함께 자바스크립트, SQL, PL/SQL 저장 프로시저를 추가로 지원한다.
오라클은 모든 종류의 컨버지드 데이터 유형에 고성능을 지원한다고 주장한다. JSON 도큐먼트나 그래프에 특화된 데이터베이스와 비교해도 높은 성능을 제공한다는 것이다. 하지만 이를 뒷받침할 오라클 데이터베이스 21c에 대한 하드 벤치마크 자료는 아직 나오지 않았다.
오라클 데이터베이스의 역사
오라클 데이터베이스 21c는 지난 40년 동안 개발과 발전해 온 최신 결실이다. 오라클 데이터베이스는 공개된 IBM 스펙을 기반으로 만든 첫 상용 SQL 관계형 데이터베이스로, 지난 1979년에 나왔다. 당시 IBM은 계층 데이터베이스 IMS 매출에 대한 ‘캐니벌라이제이션’을 피하기 위해 자사의 관계형 데이터베이스 DB2 출시를 미뤘다.1983년에 나온 오라클 버전 3은 메인프레임, 미니컴퓨터, PC에서 사용할 수 있도록 포터블 C로 를 만들었다. 버전 6에서는 디스크 I/O, 행 잠금(Row locking), 확장성, 백업, 복구 기능이 개선됐고 1992년에 나온 오라클 7에서는 PL/SQL 저장 프로시저와 트리거가 도입됐다. 오라클 8에서는 객체와 테이블 분할 기능이 추가됐고, 오라클8i는 인터넷 프로토콜을 기본 지원하고, 서버 측에서 자바를 지원했다. 2001년 오라클9i에는 오라클 RAC(Real Application Clusters)가 도입됐다. RAC는 공유 디스크, 다중 인스턴스 아키텍처다. 2003년 오라클 데이터베이스 10g에는 그리드 컴퓨팅이 도입됐다.
2007년 오라클 데이터베이스 11g는 관리 용이성과 진단성, 가용성이 향상됐다. 2013년 오라클 데이터베이스 12c는 클라우드용으로 바뀌었고 새로운 멀티테넌트 아키텍처, 인-메모리 칼럼 스토어, JSON 도큐먼트를 지원했다. 오라클 데이터베이스 21c의 경우, 오라클 블록체인 테이블(Oracle Blockchain Table)과 네이티브 JSON 데이터 형식 지원을 통해 개발자 경험을 개선한다. 강화된 자동 인-메모리(Automatic In-Memory)는 인-메모리 칼럼 스토어를 자가 관리하는 기능이다.
오라클 데이터베이스는 오라클의 여러 제품군 중 하나에 불과하다. 또 오라클은 10여 개의 오라클 데이터베이스용 애플리케이션 개발 도구와 4개의 데이터 통합 도구, 마이SQL(MySQL)과 버클리 DB(Berkeley DB) 등 9개의 다른 데이터베이스를 제공한다. 또 자바와 스토리지, 운영 체제, 애플리케이션, 오라클 클라우드 등도 있다.
오라클 데이터베이스 개요
오라클 데이터베이스 21c 기술 아키텍처 자료는 40페이지에 달하고, 거의 모든 페이지에 블록 다이어그램이 있다. 여기서 이를 모두 소개할 수는 없고 요점을 중심으로 살펴보자. 무엇보다 오라클은 컨버지드 데이터베이스 엔진이다. 많은 데이터 형식과 데이터 모델, 몇몇 워크로드 유형, 개발자와 분석가에게 유용한 여러 보조 기능을 제공한다.오라클 데이터베이스는 관계형, 시계열, 그래프, 공간, 텍스트, OLAP, XML, JSON 데이터를 모두 지원한다. 트랜잭션(OLTP), 분석(OLAP), 머신 러닝(ML), IoT, 스트리밍, 블록체인 워크로드를 처리할 수 있고, 마이크로서비스, 이벤트, REST서비스, 인-데이터베이스 ML 트레이닝, CI/CD, 로우 코드 애플리케이션 개발 기능이 통합됐다. 이 모든 것이 하나의 데이터베이스에 모두 구현돼 있어 다른 전용 데이터베이스가 필요 없다. 오라클에 따르면, 컨버지드 데이터베이스 엔진은 비용을 절감하고 데이터 전송과 변환 부하를 줄이고, 분석과 애플리케이션을 단순화한다.
오라클은 사용자가 온프레미스와 퍼블릭 클라우드, 온프레미스에서 실행되는 클라우드의 익스텐션으로 데이터베이스를 이용할 수 있도록 지원한다. 오라클 데이터베이스는 호스팅, 공동 관리, 완전 관리(자율) 등이 모두 가능하다.
오토노머스 데이터베이스는 스케일링과 튜닝, 프로비저닝, 결함(고장) 관리, 패칭을 자동으로 수행한다. 자동 튜닝 기능이란 오라클 데이터베이스 실행 내역을 지속해서 분석해 시간이 지남에 따라 바뀌는 데이터 웨어하우징 워크로드, 애플리케이션 개발, 생산 트랜잭션 처리에 데이터베이스 성능을 최적화하는 기능이다. 여기에는 사용량을 토대로 인덱스를 생성하는 기능이 포함된다. 이는 데이터 웨어하우스에 특히 중요한 기능이다.
이 오토노머스 데이터베이스의 기반에는 엑사데이터 하드웨어와 소프트웨어가 있다. 더 구체적으로 보면, 엑사데이터는 오라클 엑사데이터 데이터베이스 머신(온프레미스 전용), 오라클 엑사데이터 클라우드 서비스, 오라클 엑사데이터 Cloud@Customer(온프레미스 클라우드)의 기반이다.
최신 모델인 엑사데이터 데이터베이스 머신(Exadata Database Machine) X8M은 높은 가용성을 제공하며, 스케일-아웃 설계가 채택된 별도의 데이터베이스 및 스토리지 서버이다. 계층화된 스토리지 시스템의 일부로 인텔 옵테인 영구 메모리를 사용한다. 또 분석 및 보고에 벡터 처리와 칼럼 단위 하이브리드 압축 형식을 사용한다. X8M은 내부 상호연결에 컨버지드100Gbps 이더넷을 매개체로 하는 RDMA(Remote Direct Memory A 활용한다(RoCE). 일반적인 운영체제 스택을 완전히 우회해 작동한다.
오라클 데이터베이스는 멀티테넌트 CDB(Container Database)다. <그림 3>과 같이 1개의 시스템 시드 PDB(Pluggable Database)와 여러 개의 사용자 생성 PDB로 구성된다. 사용자는 PDB만 다룰 수 있어서 쓰고 있는 PDB가 스탠드얼론 데이터베이스라는 점을 모를 수도 있다. 과거 오라클은 CDB가 아닌 데이터베이스 인스턴스도 지원했지만, 오라클 데이터베이스 21c에는 이런 기능이 빠졌다.
오라클 RAC(Real Application Clusters) 데이터베이스 아키텍처는 단일 데이터베이스를 공유하지만 별개 서버 머신에서 실행되는 여러 인스턴스로 구성된다. 클러스터는 리스너 프로세스를 통해 사용자와 애플리케이션에 단일 엔드포인트를 제공한다. RAC는 단일 엑사데이터 머신보다 더 높은 가용성을 제공한다.
기존 오라클 데이터베이스는 디스크 기반이어서 성능에 제약이 있었다. 그러나 오라클은 최근 몇 년 동안 ‘핫(Hot)’ 데이터에 인-메모리 옵션을 추가했다. 오라클 데이터베이스 인-메모리(Oracle Database In-Memory) 기능 덕분에 실시간 분석과 혼합된 워크로드에 대한 성능이 크게 개선됐다. 인-메모리 칼럼 스토어는 데이터베이스 인-메모리의 핵심 특징이다. 트랜잭션 쿼리는 항상 로우 스토어(Row store)가 담당하고, 인-메모리 칼럼 스토어는 분석과 보고 쿼리에만 쓰인다.
오라클 데이터베이스 21c의 새로운 부분
오라클 데이터베이스 21c의 새로운 기능은 200여 가지에 달하는데 이를 6개 범주로 분류할 수 있다. 애플리케이션 개발, 빅데이터 및 데이터 웨어하우징 솔루션, 데이터베이스 업그레이드와 유틸리티, 관리 솔루션, 성능과 고가용성 옵션, 보안 솔루션 등이다.이런 모든 개선사항을 고려하면, 오라클 데이터베이스 21c는 클라우드를 중심으로 더 능률적이고 빠르면서, 신뢰할 수 있게 작동하도록 여러 방식으로 개선을 한 완성도 높은 데이터베이스다. 이 신기능을 모두 다룰 수는 없고 몇 가지만 골라 살펴보자.
블록체인 테이블: 개인적으로 블록체인에 대해 회의적이다. 그러나 오라클은 컨버지드 데이터베이스에 블록체인 레저를 추가했고, 이는 금융기관에 유용할 것이다. 기본적으로 블록체인은 행을 암호로 연결한 불변 테이블이다. 오라클은 현재 및 이전 행에 SHA2-512를 해시로 사용한다.
그러나 불변성에서 벗어난 몇 가지가 있다. 예를 들어, 외부 사용자 테이블을 사용할 때 유지 기간이 만료된 후 GDPR의 ‘삭제 권리’ 요건을 충족할 수 있도록 행을 ‘NO DELETE UNTIL n DAYS AFTER INSERT’로 설정할 수 있다.
블록체인은 일반적으로 분산형이지만, 오라클 데이터베이스는 통상 중앙화되어 있고, 오라클은 별도의 분산형 블록체인 플랫폼을 갖고 있다. 오라클에 따르면, 분산형 레저가 필요 없을 때는 오라클 데이터베이스 21c에서 통합 블록체인 테이블을 사용하는 것이 좋다. 기업이 재무나 컴플라이언스 데이터 등에 대해 내부에서 사용할 목적으로 블록체인을 사용하는 경우가 대표적이다.
네이티브 JSON 타입: 오라클 데이터베이스는 버전 12c부터 JSON을 지원했지만, VARCHAR2, CLOB, BLOB 등 다른 데이터 유형 내에서 사용할 수 있었다. 하지만 21c 버전에서는 바이너리 형식으로 저장된 JSON 유형을 지원한다. 몽고DB(MongoDB)에서 쓰는 JSONB와 유사하다. 네이티브 유형인 JSON 파싱은 인서트에서만 발생하므로, 텍스트 기반 JSON보다 읽기 및 업데이트 속도가 4~5배 더 빠르다. 매우 용량이 큰 JSON 도큐먼트 업데이트는 20~30배 더 빠르다.
인-데이터베이스 자바스크립트 실행: 오라클 데이터베이스는 1992년 PL/SQL, 1999년 자바 등 지난 수십 년 전부터 서버 내에서 실행되는 프로그래밍 언어를 지원했다. 오라클 데이터베이스 21c에서는 GraalVM를 기반으로 오라클 MLE(Multilingual Engine)를 통해 자바스크립트를 지원하는 기능이 추가됐다. MLE는 자동으로 자바스크립트 데이터 유형을 오라클 데이터베이스 데이터 유형에 매핑하며 그 반대도 마찬가지다. 자바스크립트 코드 자체가 기본 내장된 자바스크립트 모듈을 통해 PL/SQL(저장 프로시저)과 SQL을 실행할 수 있다.
SQL 매크로: 오라클 개발자는 오랫동안 PL/SQL 저장 프로시저와 테이블 함수를 사용해 SQL 쿼리를 단순화했다. 그러나 안타깝게도 오라클 PL/SQL과 SQL 엔진은 다른 컨텍스트에서 작동한다. SQL에서 PL/SQL을 호출하려면 컨텍스트를 변경해야 하는데 여기에 비용이 든다. 이런 비용을 쓰지 않도록 오라클 데이터베이스 21c에는 새로운 SQL_MACRO 키워드와 함께 SQL 매크로 기능이 추가됐다. 함수가 SQL 엔진에서 실행되며, 컨텍스트를 변경할 필요가 없다.
인-메모리 데이터베이스 강화: 그동안 데이터베이스 인-메모리는 사용자와 DBA의 관리 업무 부담이 상당했다. 그러나 이제 INMEMORY_AUTOMATIC_LEVEL을 HIGH로 설정하면, 모든 열이 인-메모리 분석의 대상이 된다.
또한 SIMD 벡터화를 사용해 인-메모리 해시 조인을 최적화하면서 속도가 10배 향상됐다. 모든 열이 메모리에 있지 않은 경우에도 칼럼(열) 스캔 속도가 빨라졌다. 이 경우, 최적화 도구(Optimizer)는 하이브리드 스캔을 수행하고, 필요한 경우 로우 스토어에서 필요한 칼럼 값을 가져올 수 있다. 즉, 로우 스토어에서만 스캔을 수행할 필요가 없다.
최적화된 그래프 모델: 그래프 데이터베이스는 수백만, 더 나아가 수십억 개의 꼭짓점과 모서리를 가질 수 있다. 오라클 데이터베이스 21c는 그래프 표현이 최적화돼, 기존 버전보다 더 적은 메모리로 더 큰 그래프를 분석할 수 있다. 또한 이번 버전은 개발자가 자바에서 그래프 알고리즘을 생성하거나 확장할 수 있다. 이렇게 사용자가 정의한 그래프 알고리즘은 네이티브 알고리즘만큼 빠르게 실행된다.
영구 메모리 지원: 오라클 데이터베이스 21c에는 단일 인스턴스 데이터베이스에서 영구 메모리 스토어를 지원하는 기능이 추가됐다. 상용 하드웨어의 로컬 영구 메모리에서 데이터 스토리지와 재실행(Redo)을 할 수 있다. 오라클 데이터베이스 21c는 매핑한 PMEM 파일 시스템에 저장된 데이터에 직접 SQL을 실행해 큰 버퍼 캐시가 필요 없고 코드 경로도 줄였다. 또 훨씬 빠른 트랜잭션 영속성과 매우 빠른 복구 기능을 제공한다. 이 기능은 I/O에 바운딩 되는 경향이 있는 워크로드에 특히 유용하다.
오라클 머신 러닝
오라클의 기존 데이터베이스 버전에서도 인-데이터베이스 머신 러닝을 지원했지만, 오라클 데이터베이스 21c는 새로운 오토ML 옵션과 새로운 머신 러닝 알고리즘을 추가했다. 오라클 오토ML은 자동 알고리즘 선택, 자동 기능 엔지니어링, 자동 모델 튜닝 기능을 제공한다.새로운 머신 러닝 알고리즘은 XG부스트(XGBoost), MSET-SPRT), 아담(Adam) 최적화 도구 등이다. XG부스트는 회귀와 분류에 아주 효율적이고 확장성을 갖춘 트리 부스팅 머신 러닝 알고리즘이다. MSET-SPRT(Multivariate State Estimation Technique–Sequential Probability Ratio Test) 알고리즘은 중요한 프로세스를 모니터링하는 비선형, 비파라미터 이상 검출 기법이다. 아담은 지원되는 다른 뉴럴 네트워크 최적화 솔버인 L-BFGS(Limited-memory Broyden-Fletcher-Goldfarb-Shanno, 선형 검색)보다 더 적은 데이터를 다루지만, 더 빠르고, 미니-배치 최적화를 사용하는 추계학적 경사 하강법(Stochastic gradient descent)의 인기 익스텐션이다.
오라클 클라우드에서 오라클 데이터베이스 21c 실행하기
오라클 데이터베이스 21c는 현재 사용하는 데 일부 제약이 있다. 올웨이즈 프리 오토노머스 데이터베이스, 데이터베이스 클라우드 서비스에서만 이용할 수 있다. 올해 말에는 더 광범위하게 이용할 수 있게 될 전망이다.올웨이즈 프리 오토노머스 데이터베이스는 간단히 생성할 수 있으며, 이름에서 알 수 있듯 무료다. 단, 1개 코어와 20GB 스토리지라는 제약이 있다.
데이터베이스 클라우드 서비스는 생성하는 데 더 많은 작업이 필요하지만, VM 구성에 있어 선택권이 있다. 이 글에서 설명한 테스트를 수행하려면 최소 2개 코어가 필요하고, 4개 코어가 권장된다. 필자는 데이터베이스 VM을 생성하기 전에 VCN(Virtual Cloud Network)를 생성해야 했다. 기본 제공된 코어와 RAM 확장을 요청해야 했는데, 이처럼 오라클 클라우드 서비스의 한도를 높이는 요청에는 영업일 기준 하루 이상이 소요됐다.
이렇게 데이터베이스를 마치고 나니 테스트 장비에서 쉘로 VM과 데이터베이스 서비스에 연결할 수 있었다.
이제 2개 셋업 랩과 여러 예제 랩을 거쳐야 했다. 여기까지 하루가 꼬박 걸렸다. 몇 가지를 더 설정하고 몇몇 경고 메시지도 나타났지만 매번 해결할 수 있었고 중대한 문제는 없었다. 데이터베이스를 실행하는 데 든 비용은 하루 기준 4.43달러였다.
이번 리뷰에서 그래프 알고리즘과 JSON 도큐먼트 성능 등 주요 기능을 테스트, 벤치마크하고 싶었지만 오라클은 21c 벤치마크에 준비가 되어 있지 않았다. 또 클라우드에서 실행되는 벤치마크를 공개하지 않는 경우도 많다. 확인할 수 있는 성능 수치는 19마이크로초 레이턴시, 1TB/초의 분석 스캔, 560GB/초 SQL 처리량 등이다. 이는 2019년 엑사데이터 X8M 온프레미스에서 실행되는 오라클 데이터베이스 19c를 벤치마킹한 결과다.
RDBMS와 키친 싱크
오라클 데이터베이스 21c는 지난 1979년부터 시작된 관계형 데이터베이스 역사의 최신 성과다. 그 핵심은 컨버지드 데이터베이스이다. 하나의 데이터베이스에서 관계, 시계열, 그래프, 공간, 텍스트, OLAP, XML, JSON 데이터를 모두 지원한다. 또 트랜잭션, 분석, 머신 러닝, IoT, 스트리밍, 블록체인 워크로드도 처리한다. 오라클 데이터베이스는 엑사데이터 어플라이언스와 여러 기능을 활용한다. 오토노머스 데이터베이스 기능으로 기본 제공되는 자동 인덱스 생성, 자동 데이터베이스 튜닝 등이 대표적이다.오라클 데이터베이스는 세상의 모든 데이터베이스의 경쟁자다. 점점 더 많은 기업이 온프레미스 방식이 돈이 더 많이 든다는 것을 깨닫고 있는 것도 경쟁이 심해지는 이유다. 그러나 데이터베이스를 옮기는 일은 쉬운 일이 아니다. 대기업도 마이그레이션과 오라클 계약 종료에 몇 년을 필요하다. 오라클 클라우드의 가격은 SQL, 애저, 아마존 오로라 같은 상용 클라우드 데이터베이스와 비교했을 때 어느 정도 경쟁력을 갖춘 것으로 판단된다. 그러나 데이터베이스 간 가격과 성능을 직접 비교하기란 쉽지 않다.
기본적인 기능성을 확인해 보고 싶다면, 무료인 오라클 오토노머스 데이터베이스 클라우드 인스턴스를 써보면 된다. 데이터베이스 클라우드 인스턴스를 키우면 상당한 데이터를 이용했을 때의 성능을 짐작할 수 있다. 단, 오라클 데이터베이스 시작에는 시간이 좀 필요하다. 경험 많은 DBA와 데이터베이스 프로그래머라고 해도 마찬가지다. 이런 평가 작업에는 최소 1주일 이상이 소요된다.
비용: 몇몇 오라클 클라우드 서비스는 무료다. 계정을 만들면 300달러의 크레딧을 받을 수 있다. 이후 가격은 리소스 사용량에 따라 달라진다. 오라클 클라우드 비용은 온라인에서 추정할 수 있다. 온프레미스에서 엑사데이터 X8M 랙을 운영하는 데 필요한 비용은 10만 달러 이상이며, 오라클 데이터베이스 사용자 라이선스가 필요하다. 오라클 Cloud@Customer는 사용 기반 요금제로 바꿀 수 있다.
플랫폼: 현재 오라클 데이터베이스 21c는 오라클 클라우드에서만 사용할 수 있다. 2021년 말에는 다양한 플랫폼의 온프레미에서 이용할 수 있게 될 예정이며, 여기에는 엑사데이터 하드웨어도 포함된다. editor@itworld.co.kr
함께 보면 좋은 콘텐츠
Sponsored
Seagate
“작지만 큰 영향력” 하드 드라이브의 나노 스케일 혁신
ⓒ Seagate 플래터당 3TB라는 전례 없는 드라이브 집적도를 자랑하는 새로운 하드 드라이브 플랫폼이 등장하며 디지털 시대의 새로운 이정표를 세웠다. 플래터당 3TB를 저장할 수 있다는 것은 동일한 면적에서 스토리지 용량을 기존 드라이브 대비 거의 두 배로 늘릴 수 있다는 것을 의미한다. 이러한 혁신은 데이터 스토리지의 미래와 데이터센터의 디지털 인프라에 괄목할 만한 영향을 미친다. AI의 발전과 함께 데이터의 가치가 그 어느 때보다 높아졌다. IDC에 따르면 2027년에는 전 세계에서 총 291ZB의 데이터가 생성될 것으로 예측되며, 이는 스토리지 제조 용량의 15배 이상일 것으로 보인다. 대부분의 데이터를 호스팅하는 대형 데이터 센터에 저장된 데이터 중 90%가 하드 드라이브에 저장된다. 즉, AI 애플리케이션의 주도로 데이터가 급증함에 따라 물리적 공간을 늘리지 않으면서도 데이터를 저장할 수 있는 스토리지 기술 혁신이 필요하다. 데이터 스토리지 인프라를 업그레이드하는 것은 단순히 기술적인 문제가 아니라 지금 시대가 직면한 규모, 총소유비용(TCO), 지속가능성이라는 과제에 대한 논리적 해답인 셈이다. 열 보조 자기 기록(HAMR) 기술은 선구적인 하드 드라이브 기술로 드라이브 집적도 향상을 위해 지난 20년 동안 수많은 연구를 거쳐 완성되어 왔다. 씨게이트 모자이크 3+ 플랫폼은 이러한 HAMR 기술을 씨게이트만의 방식으로 독특하게 구현한 것으로, 미디어(매체)부터 쓰기, 읽기 및 컨트롤러에 이르는 복잡한 나노 스케일 기록 기술과 혁신적인 재료 과학 역량을 집약한 결정체다. 이 플랫폼은 데이터 비트를 변환하고 자기 및 열 안정성을 유지하면서 더욱 촘촘하게 패킹해서 각 플래터에 훨씬 더 많은 데이터를 안정적이고 효율적으로 저장할 수 있다. 예를 들어, 기존 데이터센터에 있는 16TB 드라이브를 30TB 드라이브로 업그레이드하면 동일한 면적에서 스토리지 용량을 두 배로 늘릴 수 있다. 더 낮은 용량에서 업그레이드한다면 상승 폭은 더욱 커진다. 이 경우, 테라바이트당 전력 소비량이 40% 감소하는 등 스토리지 총소유비용(TCO)이 크게 개선된다. 또한 효율적인 자원 할당과 재활용 재료 사용으로 운영 비용을 절감하고 테라바이트당 탄소 배출량을 55% 감소시켜 데이터센터가 지속 가능성 목표를 달성할 수 있다. 드라이브 집적도 향상은 하이퍼스케일과 프라이빗 데이터센터의 판도를 바꿀 수 있다. 데이터센터가 급증하며 전력사용량과 탄소배출량 역시 늘어나 데이터센터의 지속가능성이 화두가 되고 있는 가운데, 과학기술정보통신부는 ‘탄소중립 기술혁신 추진전략-10대 핵심기술 개발방향’에서 2030년까지 데이터센터 전력소모량을 20% 절감하겠다고 밝힌 바 있다. 이러한 목표에 발맞춰, 집적도를 획기적으로 개선한 대용량 데이터 스토리지를 활용하는 것은 원활하고 지속적인 AI 모델 학습, 혁신 촉진 및 비즈니스 성공을 위해 필수적이다. 엔터프라이즈 데이터센터의 경우 제한된 공간, 전력, 예산에 맞춰 확장할 수 있는 지속 가능한 방법을 찾아야 한다. 하드 드라이브의 집적도 혁신은 점점 더 커져가는 클라우드 생태계와 AI 시대에 대응하는 해답이자, 동일한 공간에 더 많은 엑사바이트를 저장하면서도 자원 사용은 줄이도록 인프라를 확장할 수 있는 방법이다. 이는 글로벌 데이터 영역에서 경쟁력을 유지하고 글로벌 디지털 경제의 선두주자로서 입지를 강화하는 데 매우 중요하다.
Seagate
'반박 불가' 하드 드라이브와 SSD에 관한 3가지 진실
ⓒ Getty Images Bank 하드 드라이브가 멸종할 것이라는 논쟁이 10년 넘게 계속되고 있다. 빠른 속도와 뛰어난 성능이 필요한 애플리케이션에 적합한 플래시 스토리지의 연매출이 증가하고 있는 것은 자명한 사실이다. 하지만, 클라우드의 보편화 및 AI 사용 사례의 등장으로 인해 방대한 데이터 세트의 가치가 높아지는 시대에 하드 드라이브는 플래시 스토리지로 대체할 수 없는 가치를 가지고 있다. 전 세계 엑사바이트(EB) 규모 데이터의 대부분을 저장하는 하드 드라이브는 데이터센터에서 그 어느 때보다 필수적이다. 전 세계 데이터 세트의 대부분이 저장된 엔터프라이즈 및 대규모 클라우드 데이터센터는 데이터 성장에서 핵심이 될 것이다. 하드 드라이브와 SSD를 비교하자면, 하드 드라이브 스토리지는 2022년에서 2027년 사이 6,996EB 증가할 것으로 예상되는 반면, SSD는 1,363EB 증가할 것으로 보인다. ⓒ Seagate 생성형 AI 시대에는 콘텐츠를 경제적으로 저장해야 하기 때문에 플래시 기술과 밀접하게 결합된 컴퓨팅 클러스터는 더 큰 하드 드라이브 EB의 다운스트림 수요를 직간접적으로 촉진할 것이다. 하드 드라이브가 왜 데이터 스토리지 아키텍처의 중심이 될 수밖에 없는지는 시장 데이터를 근거로 설명 가능하다. 가격 책정 근거 없는 믿음 : SSD 가격이 곧 하드 드라이브 가격과 같아질 것이다. 사실 : SSD와 하드 드라이브 가격은 향후 10년간 어느 시점에도 수렴하지 않을 것이다. 데이터가 이를 명확하게 뒷받침한다. 하드 드라이브는 SSD에 비해 테라바이트당 비용 면에서 확고한 우위를 점하고 있으며, 이로 인해 하드 드라이브는 데이터센터 스토리지 인프라의 확고한 주춧돌 역할을 하고 있다. IDC 및 포워드 인사이트(Forward Insights)의 연구에 따르면, 하드 드라이브는 대부분의 기업 업무에 가장 비용 효율적인 옵션으로 유지될 것으로 전망된다. 엔터프라이즈 SSD와 엔터프라이즈 하드 드라이브의 TB당 가격 차이는 적어도 2027년까지 6대 1 이상의 프리미엄이 유지될 것으로 예상된다. ⓒ Seagate 이러한 TB당 가격 차이는 장치 구입 비용이 총소유비용(TCO)에서 가장 큰 비중을 차지하는 데이터센터에서 특히 두드러지게 드러난다. 장치 구입, 전력, 네트워킹, 컴퓨팅 비용을 포함한 모든 스토리지 시스템 비용을 고려하면 TB당 TCO는 하드 드라이브 기반 시스템이 훨씬 더 우수하게 나타난다. ⓒ Seagate 따라서, 플래시는 특정 고성능 작업의 수행에 탁월한 스토리지이지만, 하드 드라이브는 당분간 안정적이고 비용 효율적이며 널리 채택된 솔루션을 제공하는 데이터센터에서 계속해서 주류로 사용될 것이다. 공급과 확장의 관계 근거 없는 믿음 : NAND 공급이 모든 하드 드라이브 용량을 대체할 정도로 증가할 수 있다. 사실 : 하드 드라이브를 NAND로 완전히 교체하려면 감당할 수 없는 설비투자(CapEx)가 필요하다. NAND 산업이 모든 하드 드라이브 용량을 대체하기 위해 공급을 빠르게 늘릴 수 있다는 주장은 재정적, 물류적으로 엄청난 비용이 발생한다는 점을 간과한 낙관적인 생각이다. 산업 분석기관 욜 인텔리전스(Yole Intelligence)의 2023년 4분기 NAND 시장 모니터 리포트에 따르면, 전체 NAND 산업은 2015년~2023년 사이 3.1제타바이트(ZB)를 출하하면서 총 매출의 약 47%에 해당하는 2,080억 달러의 막대한 자본 지출을 투자해야 했다. 반면, 하드 드라이브 산업은 데이터센터 스토리지 수요의 거의 대부분을 매우 자본 효율적인 방식으로 해결하고 있다. 씨게이트가 2015년~2023년 사이 3.5ZB의 스토리지를 출하하며 투자한 자본은 총 43억 달러로, 전체 하드 드라이브 매출의 약 5%에 불과하다. 그러나 NAND 산업의 경우 ZB당 약 670억 달러에 해당하는 금액을 투자한 것으로 나타나 하드 드라이브가 데이터센터에 ZB를 공급하는 것이 훨씬 더 효율적임을 알 수 있다. ⓒ Seagate 작업 부하 근거 없는 믿음 : 올 플래시 어레이(AFA)만이 최신 엔터프라이즈 작업 부하의 성능 요구를 충족할 수 있다. 사실 : 엔터프라이즈 스토리지 아키텍처는 일반적으로 디스크 또는 하이브리드 어레이, 플래시, 테이프를 사용하여 특정 작업 부하의 비용, 용량, 성능 요구 사항에 최적화할 수 있도록 미디어 유형을 혼합한다. 기업이 플래시 없이는 최신 작업 부하의 성능 수요를 따라잡지 못할 위험이 있다는 주장은 다음과 같은 3가지 이유로 반박 가능하다. 첫째, 대부분의 최신 작업 부하에는 플래시가 제공하는 성능상의 이점이 필요하지 않다. 전 세계 데이터의 대부분은 클라우드와 대규모 데이터센터에 저장되어 있으며, 이러한 환경에서는 작업 부하 중 극히 일부에만 상당한 성능이 필요하다는 파레토 법칙을 따르고 있다. 둘째, 예산 제약이 있고 데이터 세트가 빠르게 증가하는 기업들은 성능뿐만 아니라 용량과 비용의 균형을 맞춰야 한다. 플래시 스토리지는 읽기 집약적인 시나리오에서는 탁월한 성능을 발휘하지만 쓰기 작업이 증가하면 내구성이 떨어져 오류 수정과 오버프로비저닝에 추가 비용이 발생한다. 또한, 대규모 데이터 세트나 장기 보존의 경우 영역 밀도가 증가하는 디스크 드라이브가 더 비용 효율적인 솔루션일 뿐만 아니라 수천 개의 하드 드라이브를 병렬로 활용하면 플래시를 보완하는 성능을 달성할 수 있다. 셋째, 수많은 하이브리드 스토리지 시스템은 다양한 미디어 유형의 강점을 단일 유닛에 원활하게 통합하고 최대한으로 활용할 수 있도록 세밀하게 조정된 소프트웨어 정의 아키텍처를 사용한다. 이러한 스토리지는 유연성을 제공하므로 기업은 지속적으로 변화하는 요구 사항에 따라 스토리지 구성을 조정할 수 있다. AFA와 SSD는 고성능의 읽기 집약적인 작업에 매우 적합하다. 하지만 하드 드라이브가 이미 훨씬 낮은 TCO로 제공하는 기능을 AFA로 불필요하게 비싼 방법으로 제공하는 것은 비용 효율적이지 않을 뿐만 아니라, AFA가 하드 드라이브를 대체할 수 있다고 주장하는 근거가 될 수 없다.