Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

데이터레이크

'혼돈 속의 새로운 조화' 데이터 관리의 최신 패러다임과 활용 사례 - Deep Dive

IT 및 데이터 리더는 수년 동안 데이터 중심 기업으로 거듭나고자 막대한 기술 투자를 해왔다. 그러나 현실의 기업들은 아직도 애물단지와도 같은 비정형 및 정형 데이터의 홍수에서 허덕이고 있다. 직원들의 데이터 접근성과 활용 역량도 뒤떨어진다. 데이터 중심 기업으로 거듭나려면 데이터 관리가 하나의 프로젝트을 넘어 회사의 근본적인 운영 단위로 승화되어야 한다.  이런 고민을 해소하려는 혁신적인 데이터 관리 개념과 솔루션이 부상하고 있다. 온갖 출처에 산재해 있는 데이터의 처리 및 공유를 다른 차원으로 끌어올리는 데이터 패브릭(Data Fabric), 그리고 데이터 메시(data mesh) 패러다임이 등장했다. 기업은 이를 기반으로 한 구체적인 솔루션을 도입 중이다. 데이터 웨어하우스(Data warehouse)의 일관성과 데이터 레이크(Data lake)의 유연성을 결합한 데이터 레이크하우스(Data lakehouse)가 대표적인 솔루션 중 하나다. 오늘날 기업이 효과적으로 데이터를 관리하는 데 겪는 어려움을 살펴보며 혁신적인 데이터 관리 방식과 패러다임에 대해 자세히 알아보자.  주요 내용  - 오늘날 기업이 겪는 데이터 관리의 고충  - 데이터 레이크의 뒤를 잇는 새로운 프레임워크, 데이터 패브릭  - 데이터 패브릭과 데이터 메시의 차이  - 세가 유럽의 데이터브릭스 활용 사례 - '3인 3색' 드레미오, 그리드게인, 스타더스트 활용 사례  

데이터전환 데이터 웨어하우스 데이터레이크 2022.09.22

효성인포메이션시스템, ‘데이터센터 현대화 컨퍼런스’ 9월 28일 부산서 개최..."AI 플랫폼, 데이터 레이크 전략 공유"

효성인포메이션시스템이 9월 28일 부산에서 ‘데이터센터 현대화 컨퍼런스’를 개최하고, AI 플랫폼, 데이터 레이크, 클라우드 인프라 등 고객의 디지털 전환(DX) 지원을 위한 최신 전략과 솔루션을 소개한다고 밝혔다.   효성인포메이션시스템은 부산·경남 지역 IT 업계 담당자들을 대상으로 매년 컨퍼런스를 개최하며 인프라 혁신 전략을 제시해왔다. 이번 컨퍼런스는 팬데믹 이후 3년만에 오프라인으로 진행되며, 고객·파트너사에게 비즈니스 경쟁력 향상을 위한 데이터 및 인프라 혁신 전략을 소개할 예정이다. 이번 컨퍼런스에서 효성인포메이션시스템은 최신 IT 트렌드 및 차세대 솔루션과 다양한 프로젝트 노하우를 공유한다. 또한 참가자들이 효성인포메이션시스템의 전체 솔루션 포트폴리오를 체험하고, IT 기술 혁신과 데이터센터 현대화를 위한 인사이트를 얻을 수 있도록 부스와 상담 공간도 마련할 계획이다. 주요 발표 내용은 ▲AI 업무 환경 확대를 위한 효성 AI 플랫폼 활용 방안 ▲사례로 살펴보는 데이터 레이크 전략 ▲현대화된 클라우드 인프라 구축 방안 ▲스토리지 주요 업데이트 사항 및 데이터 보호 전략 사례 등이며 효성인포메이션시스템 각 분야 전문가들이 발표한다. 효성인포메이션시스템 양정규 대표이사는 “고객에게 효성인포메이션시스템의 최신 DX 기술력과 노하우를 공유하고 차세대 데이터센터로 나아가는 비전을 제시하는 의미 있는 시간이 될 것으로 기대한다”고 말했다. editor@itworld.co.kr

효성인포메이션시스템 데이터센터 현대화 2022.09.06

“데이터 레이크의 잠재력을 깨운다” 차세대 스토리지 포맷 ‘아파치 아이스버그’의 이해 - Tech Summary

하둡 생태계는 방대한 데이터를 좀 더 쉽고 효과적으로 저장할 수 있기 때문에 데이터 레이크의 표준 생태계로 자리잡고 있다. 하지만 데이터를 둘러싼 환경은 빠르게 변화하고 있다. 특히 ‘데이터 폭풍’이라고 불리는 현재의 데이터 환경은 성능과 용량, 가용성, 확장성, 활용 방안 등 모든 면에서 기존 데이터 레이크의 한계를 드러내고 있다. 아파치 아이스버그가 차세대 데이터 레이크가 해법으로 주목 받는 이유는 기존 생태계와의 호환성을 유지하면서 데이터 웨어하우스의 정합성, 퍼블릭 클라우드 환경을 위한 최적화 등 기존 하둡 기반 데이터 레이크의 단점을 보완할 수 있기 때문이다. 아파치 아이스버그가 부리는 테이블과 스냅샷의 마법에 대해 알아본다. 주요 내용 - 클라우드와 데이터 폭풍 시대 데이터 레이크의 조건 - 장점은 살리고 단점은 보완하는 해법 “아파치 아이스버그” - “데이터 정합성부터 시간여행까지” 스냅샷의 마법 - 진화하는 파티션과 극강의 호환성 - 아이스버그의 가치를 극대화하는 클라우데라 데이터 플랫폼

데이터레이크 데이터웨어하우스 하둡 2022.06.28

가치와 속도에 중점 둔 글로벌 클라우드 3사의 데이터 복제 기술

최근 기업은 의사결정에 필요한 전체적인 그림 확보를 위한 민첩성과 탄력성을 높이고자 조직의 데이터를 클라우드 데이터 레이크 및 데이터 웨어하우스로 이동시키고 있다. 그 과정에서 기존의 데이터 통합 솔루션은 수동적이고 복잡한 프로세스로 인해 효율성이 떨어지며, 진행한다 하더라도 정작 데이터를 적용해야 하는 비즈니스 단계에 적합한 데이터가 아닌 경우가 발생한다. 따라서 이런 기존 솔루션의 한계를 보완한 모던 CDC 솔루션(Change Data Capture)이 주목받고 있다.  대표적인 모던 CDC 솔루션인 ‘클릭 리플리케이트(Qlik Replicate)’는 효율적인 데이터 전송 및 자동화된 데이터 변환 생성을 통해 소스 시스템 데이터 스트림 생성부터 분석 준비 데이터 세트 생성에 이르기까지 데이터 파이프라인을 가속화하는 솔루션으로 기존 데이터 통합 솔루션의 문제를 해결한다.    전 세계 수백 개의 기업이 사용하는 ‘클릭 리플리케이트(Qlik Replicate)’ 클릭 리플리케이트의 특징을 알아보면, 시스템의 중지 없이 데이터를 복제해 클라우드로 이동해(zero-time) 클라우드 환경의 데이터에서 보다 쉽고, 안전하며, 효율적으로 가치를 얻어낼 수 있게 지원한다.  또한, 소스에서 대상으로 실시간으로 데이터를 이동하며, 모든 데이터는 엔드 투 엔드 복제를 완전히 자동화하는 간단한 그래픽 인터페이스를 통해 관리된다. 데이터 엔지니어는 간소화되고 에이전트가 없는 구성을 통해, 선도적인 변경 데이터 캡처(CDC) 기술을 기반으로, 데이터 파이프라인을 쉽게 설정, 제어 및 모니터링할 수 있다.  아래 화면과 같이 수동으로 정보를 입력할 필요 없이 필터, 단일 테이블/뷰에 대한 변환 정의 및 전역 변환을 정의하는 GUI 대화 상자를 제공하는 Expression Builder 기능을 통해 규칙을 쉽게 작성할 수 있는 특징을 가진다.      클라우드별 베스트 프랙티스 제공, 어떤 클라우드 선...

GTPlus Qlik 데이터레이크 2022.02.10

제조산업에서의 데이터 레이크 구축 방안

인더스트리 4.0 시대를 맞아 많은 제조 기업이 디지털 혁신을 서두르고 있다. 제조업의 디지털 혁신 전략의 핵심은 ‘데이터 활용’이다. 제조업계는 자동화 설비와 공정 전반에서 생성되는 데이터의 가치를 높게 인정한다. 그렇다면 인더스트리 4.0 시대의 데이터 수집과 활용은 이전 세대와 비교해 무엇이 다를까? 더 많은 관계자가 더 많은 데이터에 더 쉽고 편하게 접근할 수 있어야 한다는 것이 차이점이다.   데이터 레이크의 가치 재발견  제조 기업의 현장에 가보면 품질관리, 설비관리, 생산관리, 경영정보 등 수많은 데이터가 쏟아지고 있다는 것을 알 수 있다. 이들 데이터를 활용해 엔지니어는 품질 문제를 찾고, 수율을 개선하고, 공정을 혁신한다. 이처럼 중요한 데이터를 활용할 때 아직 많은 현장이 전통적인 수집과 분석 방법에 의존한다. 즉, 현장을 잘 아는 엔지니어가 스스로 필요한 정보에 접근해 데이터 속에서 통찰력을 찾는 것이 아니라, IT 부서에 요청해 필요 데이터를 받아 분석하는 방식이 사용된다. 이런 식의 접근은 데이터 준비에 오랜 시간이 걸리기 때문에, 엔지니어가 필요 데이터를 적시에 활용하기가 쉽지 않다. 그렇다면 엔지니어가 더 빠르고 편리하게 데이터를 활용하려면 어떻게 접근해야 할까? 그 첫걸음이 바로 데이터 레이크 구축이다. 여러 시스템에서 데이터를 수집해, 이를 정형화하고, 마스터 데이터와 결합하는 등의 전처리 작업을 마친 데이터를 데이터 레이크에 적재하면 접근성이 크게 높아진다. 따라서 엔지니어들은 더 쉽고 빠르게 업무에 필요한 데이터를 활용할 수 있다. 데이터 레이크로 접근성과 편의성을 높이는 것이 중요한 이유는 제조업의 경우 시계열 데이터 처리 비중이 높기 때문이다. 문제는 이 데이터의 양이 상당하다는 것이다. 센서 데이터 수집 주기를 짧게 만들 경우 양이 더욱 커진다. 그렇다면 이처럼 방대한 데이터를 어떻게 더 빠르게 적재하고 추출할 것인가? 데이터 레이크에 품질, 설비, 생산관리, 경영정보 등의 원시 데이터를 모아 놓으...

데이터레이크 제조업 인더스트리4.0 2022.01.19

데이터베이스는 잊어라, 이제 필요한 것은 '데이터 플랫폼'

마크 포터의 이력은 흥미롭다. 포터는 AWS의 RDS(Relational Database Service)와 오로라(Aurora)를 운영한 적이 있으며, 그 이전에는 오라클에서 10년 이상을 근무하고, 이제는 몽고DB에서 일하고 있다. 데이터베이스 선구자격인 기업 3곳을 거친 포터는 데이터베이스 환경의 진화를 이야기할 수 있는 흥미로운 위치에 있다. 포터는 “백 오피스와 프론트 오피스 간의 분열이 해소되고 있다”고 관찰한다. 즉, 한때 명확하게 분리됐던 기록 시스템과 참여(engagement) 시스템이 통합되고 있다는 것이다. 정말 그렇다면 포터의 관찰이 데이터 전략 현대화에 전념하는 기업에는 어떤 의미가 있을까? 포터는 기업이 “데이터베이스 이상을 생각하고, 모든 관련 데이터 세트에서 실시간으로 데이터를 처리, 저장, 보호, 분석할 수 있는 ‘진짜 데이터 플랫폼’을 설계”해야 할 시점이라고 주장한다. 동시에 데이터 웨어하우스와 데이터 레이크를 새롭게 재구상하는 방법이 될 수도 있지 않을까?   데이터 시스템이 던지는 질문 오랫동안 데이터는 정말 각양각색으로 존재했다. 백 오피스 시스템은 행과 열에 잘 맞는 정형화된 데이터에 의존했다. 이러한 관계형 데이터베이스는 당시 놀라운 혁신이었으며, 지금까지도 기업에 많은 기여를 하고 있다. 하지만 필자는 과거 다음과 같은 주장을 했다. “편리하게 정형화된 관계형 데이터베이스의 세계는 산더미 같은 비정형, 반정형 데이터로 인해 점점 복잡해진다. 새로운 데이터 대다수는 지난 수십 년 동안 (ERP와 CRM 시스템 등)기록 시스템을 밑바탕으로 구축되었지만, 제프리 무어가 말한 참여 시스템으로 만들어진다.” 포터는 세 번째 유형으로 ‘인사이트 시스템(Systems of Insight)’을 추가했다. 포터는 다음과 같이 설명한다. “수십년 동안 기업은 기록 시스템과 참여 시스템을 유지해왔다. 기록 시스템은 주로 내부 프로그램과 사용자가 액세스하는 미션 크리티컬한 기본 정보 소스이고, 참여 시스템은 고객과 직원이...

데이터레이크 2021.03.17

클라우드와 진화하는 데이터 사이언스 및 5가지 성공 요건 : TDWI Research

오늘날 많은 기업은 분석 작업을 지원하기 위해 다중 플랫폼 환경을 조성하고 있습니다. 클라우드는 이 전략의 핵심입니다. 실제로 TDWI 연구에 따르면, 클라우드 데이터웨어 하우스 또는 데이터 레이크와 같은 플랫폼은 분석을 지원하기 위한 데이터 관리의 성장점이 됩니다. 클라우드에는 고급 분석을 위한 수많은 이점이 존재합니다. 그 중 최고는 확장성과 탄력성을 꼽을 수 있습니다. 이 체크리스트는 클라우드 기반 실사례 평가, 클라우드 컴퓨팅 아키텍처 및 계획 고려 사항을 포함하여 데이터 사이언스에 클라우드를 활용하는 5 가지 모범 사례를 실었습니다. <12p> 주요 내용 - 분석 실사례에 대한 평가 - 데이터 중력에 대한 고찰 - 진화하는 분석 아키텍쳐에 대한 이해 - 데이터 사이언스 운영화에 대한 노력

데이터과학 데이터레이크 고급분석 2021.02.26

우리 회사 데이터 레이크는 얼마나 개방적인가?

데이터 레이크는 변환된, 신뢰할 수 있는 데이터 집합과 함께 원시 형식의 데이터를 저장하고, 데이터 탐색과 인터랙티브 분석, 머신러닝과 같은 다양한 분석 작업을 위해 이 데이터에 대한 프로그램식 액세스와 SQL 기반 액세스를 모두 제공하는 시스템 또는 리포지토리다. 데이터 레이크에 저장되는 데이터에는 관계형 데이터베이스의 구조적 데이터(열과 행), 반구조적 데이터(CSV, 로그, XML, JSON), 비구조적 데이터(이메일, 문서, PDF), 바이너리 데이터(이미지, 오디오, 비디오)가 포함된다.   데이터 레이크의 과제는 사유 형식이나 시스템에 종속되지 않는 것이다. 종속은 다른 용도를 위해 데이터를 시스템 안팎으로 이동하거나 다른 툴을 사용해 데이터를 처리하는 역량을 제약하고, 데이터 레이크를 단일 클라우드 환경에 묶을 수도 있다. 따라서 기업은 데이터를 개방 형식으로 저장하고 개방형 표준 기반 인터페이스를 통해 액세스할 수 있는 개방형 데이터 레이크를 구축하도록 노력해야 한다. 데이터 저장, 데이터 관리, 데이터 처리, 운영, 데이터 액세스, 거버넌스, 보안을 포함한 시스템의 모든 측면에서 개방형 원칙을 고수해야 한다.   개방 형식은 개방형 표준을 기반으로 해서 특정 벤더의 사유 확장 없이 공개 커뮤니티 중심의 프로세스를 통해 개발되고 공유되는 형식이다. 예를 들어 개방형 데이터 형식은 ORC나 파케이(Parquet)과 같이 사양이 커뮤니티에 게시되어 어느 조직에서나 해당 형식으로 된 데이터를 읽는 툴과 애플리케이션을 만들 수 있는, 플랫폼 독립적이고 기계가 읽을 수 있는 데이터 형식이다.   일반적인 데이터 레이크에는 다음과 같은 기능이 있다. -    데이터 흡수와 저장 -    지속적 데이터 엔지니어링을 위한 데이터 처리 및 지원 -    데이터 액세스와 소비 -    디스커버리 가능성(discoverabili...

데이터베이스 빅데이터 머신러닝 2020.04.14

AWS, 최신 코로나19 데이터 레이크 무료 공개

AWS는 자사가 정기적으로 업데이트하고 관리한 코로나19 데이터 레이크를 AWS 계정을 가진 사용자라면 누구나 이용할 수 있도록 했다.   AWS는 신종 코로나 바이러스 및 관련 질병의 확산과 관련된 데이터의 중앙집중화된 저장소인 AWS COVID-19 데이터 레이크를 구축해 왔다. 8일 AWS는 날로 규모가 커지고 있는 코로나19 데이터 레이크를 누구나 자유롭게 이용하고 최신 상태를 유지하도록 관리하기 위해 협력업체와 함께 노력하고 있다고 밝혔다. AWS는 존 홉킨스와 뉴욕타임즈의 코로나19 사례 추적 데이터, 디피니티브 헬스케어(Definitive Healthcare)의 가용 병상 데이터, 그리고 알렌인공지능연구소의 코로나19 관련 연구 기사 4만 5,000건으로 데이터 레이크를 시작했다. 이 데이터 레이크를 공개하면서 향후 더 많은 데이터가 추가될 것으로 보인다. AWS COVID-19 데이터 레이크를 이용하면 여러 데이터 소스로부터 데이터를 추출하고 정리하는 데 시간을 들이지 않고도 적절한 데이터를 기반으로 분석을 실행할 수 있다. AWS나 서드파티 업체가 제공하는 툴을 이용하면 트렌드 및 질문/답변 분석을 수행하고 키워드 검색을 실시하고 머신러닝 모델을 구축하거나 특정 목적에 맞는 맞춤형 분석을 실행할 수 있다. 사용자는 공개된 데이터 레이크를 이용하거나 자체 데이터와 결합할 수 있으며, AWS 데이터 익스체인지를 통해 소스 데이터 세트를 구독할 수도 있다. AWS는 지역 보건기관이 감염 추적 대시보드를 구축하고 산소호흡기나 병상 정보와 같은 실시간 정보를 배치하는 데도 협력할 계획이다. 역학자는 자체 데이터 세트와 모델로 데이터 레이크를 보완해 트렌드와 핫스팟 관련 예보를 만들 수도 있다. AWS는 4월 8일 게시판을 통해 AWS COVID-19 데이터 레이크를 사용한 분석 방법의 예제도 제시했다. 데이터 레이크를 이용하기 위해서는 AWS 계정과 AWS 클라우드포메이션 및 글루 자원 생성 승인이 필요하다. editor@itworld...

AWS 데이터레이크 코로나19 2020.04.13

과거 데이터와 운영 데이터 전반에 걸쳐 실시간 분석을 하는 방법

오늘날의 분석(Analytics) 요건은 기존 데이터 인프라에 전례 없는 압력을 가하고 있다. 운영 데이터와 저장된 데이터에 대해 실시간 분석을 수행하는 것은 일반적으로 성공이 필수적이지만 구현하기는 항상 쉽지 않다.     예측적 유지보수와 신속한 문제 해결 시간을 가능하게 하기 위해 제트 엔진에서 연속적인 데이터 흐름을 수집하고 분석하고자 하는 항공사를 생각해보자. 각 엔진에는 온도, 속도, 진동 등의 상태를 모니터링하고 사물인터넷(IoT) 플랫폼에 지속적으로 정보를 전송하는 수백 개의 센서가 있다.  IoT 플랫폼이 데이터를 수집, 처리 및 분석한 후 데이터 레이크(운영 데이터 저장소라고도 함)에 이 데이터가 저장되며, 가장 최근의 데이터만 운영 데이터베이스에 보존된다. 이제 실시간 데이터의 비정상적인 판독 값이 특정 엔진에 대한 경고를 촉발할 때마다 항공사는 실시간 운영 데이터와 해당 엔진의 저장된 과거 데이터에 대해 실시간 분석를 실행해야 한다. 그러나 항공사는 현재의 인프라를 사용해 실시간 분석을 수행하는 것이 불가능하다는 것을 알게 될 수도 있다. 오늘날 빅데이터 이니셔티브를 개발하는 회사들은 일반적으로 데이터 과학자가 다양한 분석을 위해 데이터에 액세스할 수 있는 데이터 레이크에 운영 데이터 복사본을 저장하는데 하둡을 사용한다.  들어오는 운영 데이터와 데이터 레이크에 저장된 데이터의 하위 집합에 대한 실시간 분석를 사용 사례에서 실행해야 하는 경우, 기존의 인프라가 걸림돌이 된다. 데이터 레이크에 저장된 데이터에 액세스하는 것은 물론 결합된 데이터 레이크와 운영 데이터에 대한 연합 쿼리를 실행하는 것도 태생적으로 지연된다. 인메모리 컴퓨팅 솔루션은 널리 사용되는 데이터 플랫폼과의 실시간 성능, 대규모 확장성 및 빌트인 통합을 제공해 데이터 레이크와 운영 데이터 전반에 걸친 실시간 분석의 문제를 해결한다. 이런 기능들은 데이터 레이크와 운영 데이터 세트 전반에서 실시간 연합 쿼리를 실행할 수 있는 기...

데이터 분석 빅데이터 2019.08.20

데이터 레이크, 새로운 데이터웨어하우스가 된다

데이터 웨어하우스는 여전히 건재한가, 아니면 곧 사라질 기술인가? 누구나 혼란을 느낄 만한 질문이다. 한쪽에서 보면 데이터 웨어하우징은 무척 뜨겁다. 데이터 웨어하우징 시장에서는 오래 전부터 혁신과 신생 기업들의 활동이 꾸준히 이어져왔다. 사실 이 추세가 시작된 시점은 어플라이언스 규격이 데이터 웨어하우징 주류에 편입된 10년 전이지만, 몇 년 전에 시장이 새로운 세대의 클라우드 데이터 웨어하우스로 전환되면서 새롭게 탄력을 받았다. 지난 몇 년 동안 스노우플레이크(Snowflake)라는 클라우드 데이터 웨어하우스 업체가 과도하다고 할 만큼 많은 지지 기반을 확보했다.     데이터 웨어하우스의 쇠퇴 그러나 다른 한쪽에서 보면 데이터 웨어하우징은 빅 데이터, 머신러닝, 인공 지능과 같은 새로운 산업 패러다임에 밀려 차차 쇠퇴하는 중이다. 이 추세를 보면 데이터 웨어하우징이 기업 IT 우선 순위에서 내려가는 듯하지만, 사실 대부분의 조직은 다양한 다운스트림 애플리케이션을 구동하기 위해 최소 하나, 많은 경우 여러 개의 데이터 웨어하우스를 두고 있다. 핵심적인 기업 워크로드로서 데이터 웨어하우징이 가진 꾸준함은 몇 년 전에 필자가 데이터 웨어하우스가 아직 건재한 이유에 대한 글을 썼던 이유가 되기도 했다. 또한 같은 이유로, 업계에서는 데이터 레이크(Data Lake)와 클라우드 컴퓨팅의 시대에 데이터 웨어하우스의 유효성을 유지하기 위해 데이터 웨어하우스의 개념을 새롭게 다듬기도 했다. 데이터 웨어하우징은 번성 중일뿐만 아니라 현재 클라우드 컴퓨팅 산업의 성장을 이끄는 최전방의 핵심 요소로 인식되고 있다. 그러나 스노우플레이크와 같이 데이터 웨어하우징이라는 이름표를 붙이고 시장에서 활동하는 플랫폼에만 초점을 맞추면 이 분야에서 일어나는 여러가지 흐름을 놓치기 쉽다.   데이터 레이크의 부상 흔히 말하는 “데이터 레이크”가 차세대 데이터 웨어하우스로 빠르게 부상 중이다. 데이터 레이크 개념에 익숙하지 않은 사람들을 위해 설명하자면...

데이터웨어하우스 AWS 데이터레이크 2019.07.02

빅데이터 프로젝트가 실패하는 이유 4가지와 성공하는 방법 4가지

빅데이터 프로젝트는 규모가 크고 목표가 웅대하다. 그리고 완전히 실패하는 경우가 많다. 2016년 가트너는 빅데이터 프로젝트의 60%가 실패한 것으로 추산했다. 1년 뒤 가트너의 애널리스트 닉 휴데커는 60%의 추정치가 “지나치게 보수적”이었다면서 실패 비율이 85%에 근접하다고 말했다. 휴데커는 이러한 상황이 지금도 바뀌지 않았다고 말한다. 가트너만 이렇게 평가하는 것은 아니다. 최근까지 오랜 기간 마이크로소프트의 고위 임원을 지낸 스노우플레이크 컴퓨팅(Snowflake Computing)의 CEO 밥 무글리아는 분석 사이트 데이터나미(Datanami)와의 인터뷰에서 “나는 행복한 하둡 고객을 본 적이 없다. 그것만으로 상황을 알 수 있다. 지금까지 하둡을 성공적으로 조련한 기업의 수는 20개 미만, 어쩌면 10개 미만일 수도 있다. 제품과 기술이 얼마나 오래 전부터 시장에 존재했으며, 업계가 전반적으로 이 기술에 얼마나 힘을 쏟았는지를 감안하면 말도 안 되는 수치”라고 말했다. 물론 하둡은 빅데이터 바람을 일으킨 엔진이다. 다른 빅데이터 전문가들의 의견도 비슷하다. 실제로 심각한 수준의 문제가 있으며 전적으로 기술 문제만은 아니라는 것이다. 사실 진짜 실패의 원인에 비하면 기술은 부차적인 문제에 속한다. 빅데이터 프로젝트가 실패하는 4가지 주요 원인과 성공할 수 있는 4가지 주요 방법을 알아보자.     빅데이터 문제 1 : 부실한 통합 휴데커는 빅데이터 실패의 한 가지 중요한 기술적 문제는 서로 분리된 여러 소스의 데이터를 통합해 원하는 통찰력을 얻는 데 있다고 말했다. 격리된 레거시 시스템을 연결하기란 쉽지 않은 일이다. 휴데커는 통합 비용이 소프트웨어 비용의 5~10배에 이른다면서 “가장 큰 문제는 간단한 통합이다. 여러 데이터 소스를 연결해서 결과를 얻으려면 어떻게 해야 하는가? 많은 기업이 데이터 레이크를 선택하고, 이 기술이 마술처럼 모든 것을 연결해줄 것이라고 생각하...

프로젝트 데이터웨어하우스 데이터레이크 2019.05.20

엔터프라이즈 AI를 위한 인프라 재고 : IDC 백서

AI를 비즈니스의 운영, 제품 및 서비스에 도입하기 위해 여전히 AI 인프라를 시험하고 있는 기업들은 그 부담을 덜 수 있습니다. 불과 12개월 전과는 달리 AI 추론뿐만 아니라 딥러닝이 어떤 종류의 인프라를 필요로 하는지에 대한 인식이 높아지고 있습니다. 공급업체들은 AI 애플리케이션에 대한 장애물을 줄여주는 AI용 하드웨어, 소프트웨어 및 서비스 패키지를 함께 제공하고 있습니다. IDC는 AI가 수년 동안 데이터 센터의 표준이었던 인프라와는 다른 인프라를 필요로 한다고 믿고 있으며, 기업들도 이를 분명히 인식하고 있습니다. 그들은 미래를 내다 보면서 다른 호스트 프로세서, 다양한 가속화 기술 및 대형 메모리 용량을 채택하고 있습니다. 이 백서에서는 이러한 당면 과제에 대해 논의하고 이를 위해 IBM이 어떤 제안을 하고 있는지 알아봅니다. 주요 내용 - IBM AI 인프라 접근 방식 - AI 인프라의 핵심: IBM Power System AC922 및 IBM PowerAI - AI 인프라의 기초: 향상된 데이터 레이크 - 대형 모델 지원

인프라 가속화 AI 2019.04.11

“빅데이터 분석부터 인공지능까지” 클라우드 기반 빅데이터 분석 가이드 - IDG Summary

데이터 기반의 의사결정을 통한 비즈니스 혁신은 오늘날 모든 기업의 지상 과제라고 해도 과언이 아니다. 하지만 이를 위한 빅데이터 분석 실전은 그리 녹록지 않아 데이터의 수집과 저장부터 난관에 부딪히는 경우가 적지 않다. 물론 해법은 있다. 데이터의 수집과 저장, 분석, 시각화까지 일련의 데이터 분석 과정을 일일이 구축하고 관리하지 않아도 되는 클라우드 기반 빅데이터 분석 서비스가 그 주인공이다. 빅데이터 분석 시장이 클라우드 중심으로 재편되고 있는 흐름을 짚어보고, 기업이 클라우드 기반 빅데이터 분석 환경을 도입하는 주요 패턴을 살펴본다. 특히 기업의 요구사항에 맞는 AWS 분석 플랫폼 선택 가이드도 제시한다. 주요 내용 - 빅데이터 분석 지형의 변화와 클라우드의 부상 - 기존 데이터 분석 플랫폼의 클라우드 마이그레이션 - 첫 구축에 유용한 서버리스 아키텍처와 데이터 레이크 - 실시간 데이터 처리를 위한 빅데이터 분석 아키텍처 - 모든 개발자를 위한 인공 지능 서비스의 출현 - AI 서비스를 이용한 새로운 데이터 분석 가능성 - “폭과 깊이 모두 중요한” 클라우드 기반 데이터 분석 서비스

인공지능 아마존 데이터레이크 2018.11.09

“잘하면 대박, 못하면 쪽박” 빅데이터 분석 실패 방지를 위한 6가지 조언

빅데이터 및 분석 계획은 판도를 바꿀 수 있다. 경쟁 상대를 제치고 새로운 수익원을 창출하며 고객 서비스를 개선시킬 수 있는 통찰력을 제공하기 때문이다. 빅데이터 및 분석계획은 엄청난 실패가 될 수도 있다. 그 결과 많은 돈과 시간이 낭비된다. 유능한 기술 전문가들이 답답한 경영진의 실수에 질린 나머지 떠나버리는 손실은 말할 것도 없다. 빅데이터 실패를 방지하려면 어떻게 해야할까? 일부 모범 사례를 기본적인 기업 경영의 관점에서 보면 분명하다. 회사 최고위급 임원의 지원은 물론 기술 투자에 필요한 적정 자금을 확보하며, 필요한 전문지식을 도입하거나 양질의 교육을 실시하는 것이다. 이러한 기본적인 사항을 먼저 해결하지 않는다면 다른 것은 그다지 의미가 없다. 기본적인 사항을 해결했다고 가정한다면, 빅데이터 분석의 성패를 좌우하는 것은 기술적 문제와 과제에 대처하는 방식이다. 지속적인 성공을 위해 할 수 있는 일은 다음과 같다. 1. 빅데이터 분석 도구를 신중하게 선택하라 기술 실패의 원인은 회사가 달성하려는 목표와 전혀 맞지 않는 제품을 구입해서 시행하기 때문인 경우가 많다. 유행에 편승해 “빅데이터”나 “고급 분석”과 같은 말을 제품 설명에 때려 넣은 것은 아무 업체나 할 수 있다. 그러나 제품마다 품질과 효과는 물론 주력 분야도 크게 다르다. 따라서 기술적 역량이 뛰어난 제품을 선택하더라도 막상 사용자에게 필요한 작업에는 능하지 않을 수도 있다. 빅데이터 분석에 거의 예외 없이 적용되는 기본 기능이 있다. 예를 들면 데이터 변환과 스토리지 아키텍처 관련 기능이다(하둡(Hadoop)과 아파치 스파크(Apache Spark))를 떠올리면 된다). 그런데 빅데이터 분석에는 여러 가지 틈새 기능도 있다. 본인의 기술 전략과 실질적으로 관련된 틈새 기능에 맞는 제품을 구해야 한다. 이러한 틈새 기능으로는 프로세스 마이닝(process mining), 예측 분석, 실시간 솔루션, 인공지능, 비...

분석 인사이트 빅데이터 2017.08.11

2017년 빅데이터와 BI 트렌드, "머신러닝, 데이터 레이크, 그리고 하둡과 스파크"

2016년과 마찬가지로 2017년을 맞이하면서 여전히 자사의 데이터를 운영하는 조직에 대해 얘기하고 있다. 비즈니스 사용자들이 유용하고 실행 가능한 데이터가 필요로 할 때 언제 어디서나 제공받을 수 있을 것이다. 데이터 저장 비용은 지속적으로 하락하고 SaaS를 통해 분석 솔루션의 가용성이 확산됨에 따라 기업들은 직원들에게 그 어느 때보다 싸고 쉽게 통찰력을 제공할 수 있게 됐다. 2017년 빅데이터, 분석, 그리고 BI(Business Intelligence) 분야 트렌드는 다음과 같다. 머신러닝 받아들이기 오범은 2017년 빅데이터 분석에서 가장 큰 장애물은 머신러닝이 될 것이라고 말했다. 토니 베어의 빅데이터 동향 보고서에 따르면, 상승 곡선에 있는 머신러닝은 여전히 성장세를 유지할 것이다. 그러나 대부분의 경우 머신러닝은 맞춤형 개발보다는 애플리케이션과 서비스에 탑재될 것이다. 이는 디지털 온라인 비즈니스를 다룰 줄 아는 데이터 과학자들을 확보할 수 있는 조직들이 거의 없기 때문이다. 벤더들은 사전 패키지 형태로 판매하기 때문에 데이터 세트에 머신러닝을 적용하는 것이 그 어느 때보다 쉬워졌다. 그래서 예측 분석, 고객 통찰력, 개인화, 추천 엔진, 사기 및 위협 탐지 등에서 활용할 수 있을 것으로 기대하고 있다. 하둡, 그 너머의 움직임 오픈소스 데이터 저장 솔루션인 아파치 하둡(Apache Hadoop)은 지난 수년동안 BI 업계에서 회자되어 왔지만 실행 가능한 대안으로 인기있는 프레임워크, 특히 아파치 스파크(Apache Spark)가 더욱 더 많이 거론되기 시작했다. 베어의 보고서에서 지적한 것처럼 지난 수년 동안 이 인메모리 데이터 처리 엔진은 많은 거품이 있긴 하지만 클라우드 내 스파크를 배포하는 기능만큼은 탁월하다. 베어는 클라우드 기반, 머신러닝, 그리고 IoT 서비스에서의 스파크는 하둡을 고려하고 있는 기업들에게 대안을 제공할 것이라고 말했다. "스파크와 하둡은 서로 다른 제품이지...

BI 스파크 하둡 2016.12.30

"데이터에 흐르는 비즈니스 기회, 호수에 저장하라" - 데이터 레이크의 이해 - IDG Tech Report

데이터 레이크(data lakes)란 대용량의 데이터들을 억지로 통합해 단일 형식으로 만드는 대신, 그대로 원래 형식으로 저장했다가 나중에 쉽게 분석할 수 있도록 하는 대규모 데이터 저장소를 의미한다. 데이터 레이크는 정형 데이터만 저장하는 기존 데이터웨어하우스와 비교하는 경우가 많지만 이 둘은 쓰이는 목적과 용도가 다르다는 것이 전문가들의 설명이다. 이 둘의 성격과 개념을 잘 파악해 적용하는 것이야말로 빅데이터, 사물인터넷으로 이어지는 새로운 비즈니스 기회를 잡을 수 있는 열쇠다. 빅데이터 저장소이자 새로운 비즈니스 기회가 담겨있는 데이터 레이크의 개념 설명과 사례, 그리고 준비 시 고려사항을 살펴보자. 주요 내용 "데이터 분석의 새로운 방향" - 얼리 어답터에게 듣는 데이터 레이크 사용기 “제 자리에서 분석하기” - 데이터 레이크 준비 시 직면하는 과제

데이터웨어하우스 데이터레이크 datalakes 2016.04.27

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.