성안당은 ‘하둡’ 관리자의 필독서인 <빅데이터 전문가의 하둡 관리>을 발표했다. 빅데이터 시대에 속도와 신뢰성이 답보되면서 비용도 저렴해 효율적인 솔루션으로 각광받는 하둡은 2003년, 2005년에 발표된 구글 분산 파일 시스템(GFS)과 맵리듀스(MapReduce)를 구현했다. 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하는 분산 애플리케이션을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. ...
2018.11.05
F#은 강한 형식의 함수 우선 프로그래밍 언어로, 복잡한 문제를 단순한 코드로 해결할 수 있게 해준다. ML을 기반으로 .NET 프레임워크 상에 구축된 F#은 우수한 상호운용성, 이식성, 런타임 속도, 그리고 “5C”인 간결함(c ...
2018.04.26
아파치 스파크(Apache Spark)는 2009년 버클리대학교의 AMPLab에서 소소하게 시작된 이후, 발전을 거듭해 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나로 부상했다. Credit: Getty Images Bank ...
인간은 매일 먹고 일하고 놀고 데이터를 생산한다. IBM에 따르면 인류가 하루에 생산하는 데이터의 양은 무려 250경 바이트에 이른다. DVD를 쌓는다면 달까지 왕복할 만큼의 데이터다. 이 데이터에는 우리가 전송하는 텍스트와 업로드하는 사진부터 산업용 ...
2017.09.12
느린 하둡 및 데이터 호수(Data Lake)에서 실시간 스트림으로 시장의 관심이 이동하면서 아파치 카프카가 꾸준히 부상하고 있다. 아파치 카프카(Kafka)가 순풍을 타고 있다. 레드몽크(Redmonk)의 핀탄 라이언이 전했듯이 작년 한해 동안 ...
과대포장의 속도를 따라가지 못하는 12가지 ‘최신 유행’ 기술 기술이다. 기술이 미래를 만든다. 그러나 생각만 앞선 경우가 많다. 상상하거나 주장했던 이야기가 실현되지 못하고 지지부진한 경우가 비일비재하다. 아마 좋은 기술이 ...
 빅데이터에서 필요한 것이 무엇인지, 그리고 그것을 얻기 위해서는 어떻게 해야 하는지를 전문가가 알려줍니다. 대부분의 조직에 있는 비즈니스와 기술 리더들은 빅데이터 분석의 능력을 잘 알고 있습니다. 그렇지만, 자신들이 원하는 방식으로 그 ...
2017.07.04
호튼웍스(Hortonworks)와 IBM이 최근 파트너십 확대를 발표했다. 내용은 머신러닝과 데이터 과학 툴을 하둡 생태계 전반의 개발자를 대상으로 확대하기 위해 IBM의 데이터 사이언스 익스피리언스(Data Science Experience, DSX ...
"하둡이 나온 지 벌써 10년이 됐으며, 은행에서는 이 기술을 활용한 지 8년정도 됐다. 지금까지 은행들은 하둡 사례를 공개하지 않았지만, 최근 들어 이들은 빅데이터를 활용하는 방안에 대해 설파하기 시작했다. 이는 그동안 빅데이터 기술이 차별 ...
2016년과 마찬가지로 2017년을 맞이하면서 여전히 자사의 데이터를 운영하는 조직에 대해 얘기하고 있다. 비즈니스 사용자들이 유용하고 실행 가능한 데이터가 필요로 할 때 언제 어디서나 제공받을 수 있을 것이다. 데이터 저장 비용은 지속적 ...
지난 3월에도 썼지만 데이터브릭스(Databricks) 서비스는 데이터 과학자를 위한 뛰어난 제품이다. 다양한 수집(ingestion), 특징 선택, 모델 구축, 평가 기능을 갖췄고 데이터 소스와의 통합 기능과 확장성도 장점이다. 스파크 관련한 기존 ...
필자는 매년 ‘새해 주의해야 할 것’ 즉 다가올 한 해 동안 문제가 생길 수도 있을 만한 분야를 예상해 왔다. 올 해도 2017년 한 해 동안 생각처럼 잘 풀리지 않을 수 있는 일 열 가지를 선정했다. 하둡 배포판 빅 데이 ...
하둡이 빅데이터의 대명사로 여겨지며 모든 기업에 빅데이터 바람을 일으킨 것은 그다지 오래된 일이 아니다. 그런데 이제는 오범(Ovum) 분석가 토니 베어가 말했듯이 "하둡의 정점(peak Hadoop)"에 이르렀다는 뚜렷 ...
한국테라데이타(www.teradata.kr)는 AWS(Amazon Web Services) 기반 테라데이타 애스터 애널리틱스(Teradata Aster Analytics) 및 하둡 기반 테라데이타 애스터 애널리틱스를 위한 새로운 개발 옵션을 발표했다. 이 솔루션으로 기업들은 하둡에 대한 기존 투자를 기반으로 데이터 위치와 상관없이 데이터에서 가치 있는 분석을 통찰해 빠르게 확보할 수 있다고 업체는 밝혔다. 일반적인 오픈소스 고급 분석 패키지는...
기업 내 데이터 업무가 점점 증가하고 있다. 이에 따라 오픈소스 빅데이터 프레임워크인 하둡과 스파크 중 무엇을 고를 것인지가 점점 중요한 문제로 대두되고 있다. 하둡과 스파크의 장단점, 벤더 정보, 고객사 사용 사례를 범주별로 분류해 살펴본다. ...
  1. 신간 ∣ 빅데이터 전문가의 하둡 관리

  2. 2018.11.05
  3. 성안당은 ‘하둡’ 관리자의 필독서인 <빅데이터 전문가의 하둡 관리>을 발표했다. 빅데이터 시대에 속도와 신뢰성이 답보되면서 비용도 저렴해 효율적인 솔루션으로 각광받는 하둡은 2003년, 2005년에 발표된 구글 분산 파일 시스템(GFS)과 맵리듀스(MapReduce)를 구현했다. 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하는 분산 애플리케이션을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. ...

  4. F#을 사용해야 하는 14가지 분명한 이유

  5. 2018.04.26
  6. F#은 강한 형식의 함수 우선 프로그래밍 언어로, 복잡한 문제를 단순한 코드로 해결할 수 있게 해준다. ML을 기반으로 .NET 프레임워크 상에 구축된 F#은 우수한 상호운용성, 이식성, 런타임 속도, 그리고 “5C”인 간결함(conciseness), 편리함(convenience), 정확함(correctness), 동시성(concurrency), 완전성(completeness)을 제공한다. F#은 초기에는 마이크로소프트 리서치...

  7. 대세로 자리잡은 빅데이터 분석 플랫폼, "아파치 스파크"의 이해

  8. 2017.11.15
  9. 아파치 스파크(Apache Spark)는 2009년 버클리대학교의 AMPLab에서 소소하게 시작된 이후, 발전을 거듭해 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나로 부상했다. Credit: Getty Images Bank 스파크는 다양한 방법으로 배포가 가능하고 자바, 스칼라, 파이썬, R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하며 SQL, 스트리밍 데이터, 머신러닝 및 그래프 처리를 지원한다. 은행, 통신업체...

  10. “빅데이터란 무엇인가?” 구성요소와 기반 기술의 이해

  11. 2017.09.12
  12. 인간은 매일 먹고 일하고 놀고 데이터를 생산한다. IBM에 따르면 인류가 하루에 생산하는 데이터의 양은 무려 250경 바이트에 이른다. DVD를 쌓는다면 달까지 왕복할 만큼의 데이터다. 이 데이터에는 우리가 전송하는 텍스트와 업로드하는 사진부터 산업용 센서 측정 데이터와 머신 간 통신 등 온갖 것이 포함된다. 이러한 이유로 “빅데이터”라는 말이 도처에서 사용되는 것이다. 사람들이 빅데이터라고 말할 때는 이 데이터의 많은 부분을...

  13. “모든 스트리밍 데이터는 아파치 카프카로” 실시간 데이터 인기와 함께 급부상

  14. 2017.08.02
  15. 느린 하둡 및 데이터 호수(Data Lake)에서 실시간 스트림으로 시장의 관심이 이동하면서 아파치 카프카가 꾸준히 부상하고 있다. 아파치 카프카(Kafka)가 순풍을 타고 있다. 레드몽크(Redmonk)의 핀탄 라이언이 전했듯이 작년 한해 동안 개발자 인기도가 무려 260% 뛰었다. 실시간 스트리밍 데이터에 대한 IoT 및 기타 엔터프라이즈의 수요가 널리 확산되고 나서부터 카프카의 인기는 수직 상승 중이다. 링크드인(LinkedIn)에서 탄생한 ...

  16. 과대포장의 속도를 따라가지 못하는 12가지 ‘최신 유행’ 기술

  17. 2017.07.10
  18. 과대포장의 속도를 따라가지 못하는 12가지 ‘최신 유행’ 기술 기술이다. 기술이 미래를 만든다. 그러나 생각만 앞선 경우가 많다. 상상하거나 주장했던 이야기가 실현되지 못하고 지지부진한 경우가 비일비재하다. 아마 좋은 기술이겠지만 2017년 중반 현재 기대 수준에 이르지는 못한 기술들을 모아봤다. 1. 챗봇 검색 회사에서 일하는 필자가 챗봇을 과장된 기술로 언급하다니 아이러니한 일이다(정확히 밝혀 두자면 필자가 일하는 ...

  19. 빅데이터 분석 전략을 여는 6개의 열쇠

  20. 2017.07.04
  21.  빅데이터에서 필요한 것이 무엇인지, 그리고 그것을 얻기 위해서는 어떻게 해야 하는지를 전문가가 알려줍니다. 대부분의 조직에 있는 비즈니스와 기술 리더들은 빅데이터 분석의 능력을 잘 알고 있습니다. 그렇지만, 자신들이 원하는 방식으로 그런 능력을 활용할 수 있는 리더는 소수에 불과합니다. 과제가 복잡한 만큼, 기술 역시 복잡할 수밖에 없습니다. 핵심 원리를 이해하고 거기에 투자하는 것이 조직에서 넘쳐나고 있는 정보의 바다를 이용할 수 있는...

  22. "하둡에 대한 투자 대폭 강화"…호튼웍스와 IBM 전격 인터뷰

  23. 2017.06.28
  24. 호튼웍스(Hortonworks)와 IBM이 최근 파트너십 확대를 발표했다. 내용은 머신러닝과 데이터 과학 툴을 하둡 생태계 전반의 개발자를 대상으로 확대하기 위해 IBM의 데이터 사이언스 익스피리언스(Data Science Experience, DSX) 분석 툴킷과 호튼웍스의 데이터 플랫폼(HDP)을 합치는 것이다. IBM의 하둡용 SQL 엔진인 빅 SQL(Big SQL)도 활용된다. 인포월드 편집자 폴 크릴은 최근 미국 실리콘 밸리에서 열린 데이...

  25. "빅데이터, 차별화 요소가 아닌 필수 불가결한 기술"…클라우데라와 마스터카드

  26. 2017.05.15
  27. "하둡이 나온 지 벌써 10년이 됐으며, 은행에서는 이 기술을 활용한 지 8년정도 됐다. 지금까지 은행들은 하둡 사례를 공개하지 않았지만, 최근 들어 이들은 빅데이터를 활용하는 방안에 대해 설파하기 시작했다. 이는 그동안 빅데이터 기술이 차별화 전략이었다면 이제는 기업 생존의 필수불가결한 기술이 됐음을 의미한다." 클라우데라 금융 서비스 부문장이자 빅데이터 에반젤리스트인 스티븐 토트먼은 15일 방한해 기자간담회를 개최하면서 빅데이...

  28. 2017년 빅데이터와 BI 트렌드, "머신러닝, 데이터 레이크, 그리고 하둡과 스파크"

  29. 2016.12.30
  30. 2016년과 마찬가지로 2017년을 맞이하면서 여전히 자사의 데이터를 운영하는 조직에 대해 얘기하고 있다. 비즈니스 사용자들이 유용하고 실행 가능한 데이터가 필요로 할 때 언제 어디서나 제공받을 수 있을 것이다. 데이터 저장 비용은 지속적으로 하락하고 SaaS를 통해 분석 솔루션의 가용성이 확산됨에 따라 기업들은 직원들에게 그 어느 때보다 싸고 쉽게 통찰력을 제공할 수 있게 됐다. 2017년 빅데이터, 분석, 그리고 BI(Business I...

  31. 리뷰 | 머신러닝을 밝히는 스파크

  32. 2016.11.29
  33. 지난 3월에도 썼지만 데이터브릭스(Databricks) 서비스는 데이터 과학자를 위한 뛰어난 제품이다. 다양한 수집(ingestion), 특징 선택, 모델 구축, 평가 기능을 갖췄고 데이터 소스와의 통합 기능과 확장성도 장점이다. 스파크 관련한 기존 라이브러리는 빅데이터를 위한 불꽃, 실시간 분산형 컴퓨팅 '스파크'에 있다. http://www.itworld.co.kr/techlibrary/92953 데이터브릭스 서비스는 스파크(Sp...

  34. IDG 블로그 | 2017년에 걱정해야 할 10가지

  35. 2016.11.21
  36. 필자는 매년 ‘새해 주의해야 할 것’ 즉 다가올 한 해 동안 문제가 생길 수도 있을 만한 분야를 예상해 왔다. 올 해도 2017년 한 해 동안 생각처럼 잘 풀리지 않을 수 있는 일 열 가지를 선정했다. 하둡 배포판 빅 데이터, 분석, 그리고 머신러닝은 지금까지 살아남았고, 결국은 약속했던 방식대로 비즈니스를 변화시킬 것이다. 하지만 하둡만큼은 위태로워 보인다. 그렇다고 관련된 모든 사람이 다 곤란에 처하게 될 것이라는 ...

  37. 글로벌 칼럼 | 우리는 하둡에 대해 아는 게 거의 없었다

  38. 2016.11.18
  39. 하둡이 빅데이터의 대명사로 여겨지며 모든 기업에 빅데이터 바람을 일으킨 것은 그다지 오래된 일이 아니다. 그런데 이제는 오범(Ovum) 분석가 토니 베어가 말했듯이 "하둡의 정점(peak Hadoop)"에 이르렀다는 뚜렷한 징후들이 있다. 그러나 가장 명백한 신호는 아마도 '하둡'에 아무런 하둡도 남아 있지 않다는 사실일 것이다. 또는 인포월드의 앤드류 올리버의 표현대로 "하둡에 대해 알아야 할...

  40. 테라데이타, 하둡 및 AWS 기반 ‘애스터 애널리틱스’용 개발 옵션 발표

  41. 2016.08.29
  42. 한국테라데이타(www.teradata.kr)는 AWS(Amazon Web Services) 기반 테라데이타 애스터 애널리틱스(Teradata Aster Analytics) 및 하둡 기반 테라데이타 애스터 애널리틱스를 위한 새로운 개발 옵션을 발표했다. 이 솔루션으로 기업들은 하둡에 대한 기존 투자를 기반으로 데이터 위치와 상관없이 데이터에서 가치 있는 분석을 통찰해 빠르게 확보할 수 있다고 업체는 밝혔다. 일반적인 오픈소스 고급 분석 패키지는...

  43. 장단점·생태계·사용사례로 비교해 보는 '하둡 vs. 스파크'

  44. 2016.07.19
  45. 기업 내 데이터 업무가 점점 증가하고 있다. 이에 따라 오픈소스 빅데이터 프레임워크인 하둡과 스파크 중 무엇을 고를 것인지가 점점 중요한 문제로 대두되고 있다. 하둡과 스파크의 장단점, 벤더 정보, 고객사 사용 사례를 범주별로 분류해 살펴본다. 하둡(Hadoop)과 스파크(Spark)는 다른 점이 많은 기술이다. 사용 사례도 크게 다르다. 두 기술을 공개한 ASF(Apache Software Foundation)는 심지어 이 둘을 다른 범주...

X