스파크

스트리밍 데이터 플랫폼을 선택하는 방법

스트리밍 데이터는 보통 센서, 서버 로그와 같은 수많은 데이터 소스에 의해 지속적으로 생성된다. 스트리밍 데이터 레코드는 대체로 작아서 각각 몇 킬로바이트에 불과하지만, 수가 많고 끊임없이 이어진다. 여기서는 스트리밍 데이터에 대한 기본 정보와 함께 ...

스트리밍데이터 카프카 ETL 2022.02.28

제조산업에서의 데이터 레이크 구축 방안

인더스트리 4.0 시대를 맞아 많은 제조 기업이 디지털 혁신을 서두르고 있다. 제조업의 디지털 혁신 전략의 핵심은 ‘데이터 활용’이다. 제조업계는 자동화 설비와 공정 전반에서 생성되는 데이터의 가치를 높게 인정한다. 그렇다면 인더스트리 4.0 시대의 ...

데이터레이크 제조업 인더스트리4.0 2022.01.19

"하둡을 제압한 빅데이터 플랫폼" 아파치 스파크란 무엇인가

아파치 스파크(Apache Spark)는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하는 한편, 단독으로 또는 다른 분산 컴퓨팅 툴과 조율해 여러 컴퓨터로 데이터 처리 작업을 분산할 수 있는 데이터 처리 프레임워크다. 거대한 데이터 스토...

아파치 스파크 하둡 2020.03.20

리뷰 | iOS용 스파크, 애플 메일의 '0순위' 무료 대체 앱

지난 몇 년간 애플 메일(Apple Mail)이 개선된 것은 분명하다. 그러나 아직도 개선해야 할 것이 많이 남아 있다. 알림 기능이 대표적이다. 필자는 아이클라우드와 아웃룩 계정을 사용하는데 메일이 와도 종종 메일 알림을 보여주지 않는 경우가 있다....

메일 스파크 Spark 2020.01.08

델타 레이크 프로젝트, 아파치 스파크에 ACID 트랜잭션 추가

아파치 스파크의 원 개발자가 설립한 데이터브릭(DataBricks)이 새로운 프로젝트 델타 레이크(Delta Lake)를 발표했다. 델타 레이크는 스파크용 오픈소스 스토리지 계층으로, ACID 트랜잭션과 기타 데이터 관리 기능을 머신러닝 및 기타 빅데...

스파크 데이터프레임 ACID 2019.04.25

2018 최고의 오픈소스 소프트웨어 : 데이터 스토리지 및 애널리틱스

요즘 세상에 데이터보다 더 중요한 것은 없다. 우리는 어느 때보다 더 많은 데이터를 가지고 있고, 이를 저장하고 분석할 방밥도 어느 때보다 많이 가지고 있다. 예컨대 SQL 데이터베이스, NoSQL 데이터베이스, 분산 OLTP 데이터베이스, 분산 OL...

데이터베이스 코코로치 주피터랩 2018.10.04

“데이터센터의 열로 지역 난방” 새로운 접근법 스파크 주목

노르웨이의 한 작은 마을이 새 데이터센터에서 발생하는 열을 가정과 사무실 난방에 사용하는 실험을 진행하고 있다. 모든 데이터센터 관리자가 현대적인 데이터센터를 운영하는 데 있어서 발열을 처리하는 것이 가장 중요하고 가장 값비싼 요소라는 것을 알고...

냉각 건축 재생에너지 2018.08.28

‘빅데이터 분석의 불꽃’ 아파치 스파크의 이해와 활용 - IDG Deep Dive

아파치 스파크(Apache Spark)는 2009년 버클리대학교에서 시작한 이후 이제는 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크로 자리 잡았다. 스파크는 다양한 방법으로 배포할 수 있고 여러 프로그래밍 언어용 네이티브 바인딩을 제공한다. S...

아파치 스파크 빅데이터 2017.12.13

대세로 자리잡은 빅데이터 분석 플랫폼, "아파치 스파크"의 이해

아파치 스파크(Apache Spark)는 2009년 버클리대학교의 AMPLab에서 소소하게 시작된 이후, 발전을 거듭해 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나로 부상했다. Credit: Getty Images Bank...

아파치 스파크 하둡 2017.11.15

2017년 최고의 오픈소스 소프트웨어 : 데이터베이스와 분석 툴

지난 몇 년 간 수많은 NoSQL 데이터베이스가 최고의 오픈소스 목록을 지나갔다. 이제 SQL은 충분하다. 2017년도에는 스케일아웃 SQL 데이터베이스가 두 가지 포함되어 있지만, 아파치 소프트웨어 재단에서 흔히 볼 수 있는 일군의 분석 지향 프로젝...

데이터베이스 아파치 스파크 2017.10.11

“모든 스트리밍 데이터는 아파치 카프카로” 실시간 데이터 인기와 함께 급부상

느린 하둡 및 데이터 호수(Data Lake)에서 실시간 스트림으로 시장의 관심이 이동하면서 아파치 카프카가 꾸준히 부상하고 있다. 아파치 카프카(Kafka)가 순풍을 타고 있다. 레드몽크(Redmonk)의 핀탄 라이언이 전했듯이 작년 한해 동안...

실시간 아파치 스파크 2017.08.02

'딥 러닝의 미래 예측' 6가지

딥 러닝(Deep learning)은 많은 요소가 있으며 단순하지도 않다. 인공 신경망의 기본 사항을 마스터한 데이터 과학자라 할지라도 회선, 순환, 생성을 비롯한 모든 다계층 딥 러닝 알고리듬의 복잡한 내용을 다 따라잡으려면 꽤 많은 시...

스파크 딥러닝 2017.02.28

오픈소스 스파크, 그 다음 단계는 무엇인가

오픈소스 프로젝트 하나만 다루는 컨퍼런스라고 하면 기조 연설자 한 명이 어느 지방 대학 강의실에 모인 100명 남짓의 사람들 앞에서 발표하는 장면이 연상된다. 그러나 스파크 서밋 이스트(Spark Summit East)는 전혀 그렇지 않았다. 총...

스파크 Spark Spark Summit East 2017.02.10

2017년 빅데이터와 BI 트렌드, "머신러닝, 데이터 레이크, 그리고 하둡과 스파크"

2016년과 마찬가지로 2017년을 맞이하면서 여전히 자사의 데이터를 운영하는 조직에 대해 얘기하고 있다. 비즈니스 사용자들이 유용하고 실행 가능한 데이터가 필요로 할 때 언제 어디서나 제공받을 수 있을 것이다. 데이터 저장 비용은 지속적...

BI 스파크 하둡 2016.12.30

리뷰 | 머신러닝을 밝히는 스파크

지난 3월에도 썼지만 데이터브릭스(Databricks) 서비스는 데이터 과학자를 위한 뛰어난 제품이다. 다양한 수집(ingestion), 특징 선택, 모델 구축, 평가 기능을 갖췄고 데이터 소스와의 통합 기능과 확장성도 장점이다. 스파크 관련한 기존 ...

리뷰 스파크 하둡 2016.11.29

글로벌 칼럼 | 우리는 하둡에 대해 아는 게 거의 없었다

하둡이 빅데이터의 대명사로 여겨지며 모든 기업에 빅데이터 바람을 일으킨 것은 그다지 오래된 일이 아니다. 그런데 이제는 오범(Ovum) 분석가 토니 베어가 말했듯이 "하둡의 정점(peak Hadoop)"에 이르렀다는 뚜렷...

스파크 하둡 클라우드 2016.11.18

레거시 시스템 가상화의 비즈니스 가치 - IDG Summary

알파, VAX, 썬 스파크와 같은 구형 시스템을 아직 활용 중인 기업들은 이제 진퇴양난의 상황에 처해 있는 형국이다. 수십 년간 꾸준히 사용해온 이들 시스템을 어떻게든 유지하는 것과 유지보수 및 통합 가능성이 높은 신형 인프라로 마이그레이션할 것 사이...

가상화 HP3000 VAX 2016.11.11

현대적인 데이터센터에서도 성능을 발휘하는 레거시 시스템

레거시 하드웨어 교체를 위한 마이그레이션을 고려하고 계십니까? 현대적인 데이터센터와 레거시 시스템은 서로 공존할 수 없을 것 같이 보이지만, 사실은 그렇지 않습니다. 하드웨어 가상화는 레거시 시스템 교체를 조심스러운 시각으로 바라보는 기업을 위한 경제...

가상화 VAX 카론 2016.11.11

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.