Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

데이터 과학

R스튜디오, 포싯(Posit)으로 사명 바꿔…파이썬˙VS코드에 집중

R스튜디오가 회사 이름을 ‘포싯(Posit)’으로 변경한다. 27일(현지 시각) 美 워싱턴 D.C.에서 열린 연례 사용자 컨퍼런스에서 R스튜디오는 R을 넘어 파이썬 및 비주얼 스튜디오 코드 사용자까지 포함하기 위해 사명을 바꾼다고 발표했다.  R스튜디오는 지난 몇 년 동안 자사 제품이 R과 파이썬 모두를 지원하는 ‘이중 언어’라고 강조해 왔다. 하지만 ‘R스튜디오’라는 브랜드로 인해 파이썬 사용자가 자사 제품을 고려하도록 설득하는 게 어려웠다는 설명이다. R스튜디오의 수석 과학자 해들리 위컴은 “사명 때문에 제한을 받는다고 느꼈다”라고 말했다.    그러나 R스튜디오 설립자 겸 CEO J.J. 알레르는 “소셜 미디어 등에서 주장하는 것과는 달리, 사명 변경이 R 관련 제품 개발을 중지하거나 파이썬이 데이터 과학에서 R을 대체한다는 것을 의미하지는 않는다”라고 언급했다. 위컴은 “R에서 파이썬으로 전환하는 게 아니다”라면서, “R 코드 작성을 멈추지 않을 것”이라고 전했다.  알레르는 그 대신 관련 상용 제품의 수익을 통해 오픈소스 소프트웨어에 안정적으로 자금을 조달할 수 있는 모델을 찾았다고 밝혔다. 또한 “데이터 과학 관행에 폭넓게 영향을 미칠 기회가 있다고 생각한다”라고 덧붙였다.  알레르에 따르면 내부 엔지니어의 약 40%가 풀타임으로 오픈소스 소프트웨어에 전념하고 있다. 오픈소스 개발 작업에 참여하지만 풀타임으로는 일하지 않는 직원을 제외하면 인력 규모는 총 43명이다. 2020년 R스튜디오는 공익법인으로 개편했다고 발표했다. 따라서 의사결정을 내릴 때 주주 가치 극대화에 초점을 맞추는 대신, 광범위한 사용자 커뮤니티의 요구를 고려할 수 있게 됐다.  현재 내부 엔지니어의 90%가 R을 다루고 있지만 알레르는 약 3년 후에는 (그 비율이) 약 75% 수준일 것이라고 추정했다. 하지만 단기적으로는 R과 관련한 개발 작업의 대부분을 유지할 예정이다. 단, 더 이상 첫 번째 제품인 ‘R...

R스튜디오 포싯 데이터 과학 2022.07.29

"이러려고 데이터 과학자 됐나" 데이터 관리의 11가지 어두운 비밀

누군가는 데이터를 새로운 석유라 부르고, 누군가는 새로운 금이라고도 부른다. 철학자와 경제학자들은 비유의 적절성 대해 논쟁할 수 있겠지만, 데이터 기반 의사 결정을 도모하는 기업에 데이터 구성 및 분석이 필수적이라는 점은 의심의 여지가 없다. 일단은 견고한 데이터 관리 전략이 핵심이다. 데이터 거버넌스, 데이터 운영, 데이터 웨어하우징, 데이터 엔지니어링, 데이터 분석, 데이터 과학 등을 포괄하는 데이터 관리는 올바르게 수행될 경우 각종 비즈니스에서 경쟁 우위를 가져다줄 수 있다. 좋은 소식은 데이터 관리의 많은 측면이 잘 정립돼 있으며, 수십 년 동안 발전해 온 원칙이 존재한다는 점이다. 예를 들어, 적용하기 어렵거나 이해하기에 간단하지 않을 수 있지만, 많은 과학자와 수학자 덕분에 기업은 이제 데이터를 분석하고 결론을 내리기 위한 다양한 프레임워크를 갖게 됐다. 분석 한계를 나타내는 오차 막대를 그리는 통계 모델도 있다. 그러나 데이터 과학과 이를 뒷받침하는 다양한 학문에 대한 연구에서 얻은 모든 장점에도 불구하고 우리는 머리를 긁적거릴 때가 있다. 현장에서 벽에 부딪히는 경우가 많기 때문이다. 때로는 너무 많은 데이터를 수집하고 구성하는 역설적인 문제도 있다. 일부는 철학적이며 우리의 추상적 역량을 시험한다. 그리고 처음 데이터를 수집하는 데서는 개인 정보 보호 문제가 대두되고 있다. 다음은 수많은 기업에서 데이터 관리를 어려운 과제로 만드는 몇 가지 어두운 비밀들이다.   애물단지 비정형 데이터 기업 아카이브에 저장되어 있는 데이터의 대부분은 구조화되어 있지 않다. 은행의 콜센터 직원이 작성한 문자 메모를 검색하기 위한 인공 지능(AI) 사용을 원하는 경우가 있다. 이 문장에는 은행의 대출 및 서비스를 개선하는 데 도움이 될 수 있는 통찰이 담겨 있을 수 있다. 그러나 메모 데이터는 기록할 내용에 관해 서로 다른 생각을 가진 수백 명의 사람들이 작성한 것이다. 또한, 직원들은 서로 다른 작문 스타일과 능력을 가지고 있고, 일부는 전...

데이터 관리 데이터 과학 데이터 웨어하우징 2022.07.04

오픈소스 MPP 데이터 웨어하우스, ‘아파치 도리스’란? 

‘그’가 누구이고, 어떤 학교에 다녔는지 궁금한가? ‘아파치 도리스(Apache Doris)’는 아파치 인큐베이터(Apache Incubator)에서 개발한 오픈소스 MPP 분석 데이터 웨어하우스다. 지난주 아파치 소프트웨어 재단(Apache Software Foundation; ASF)은 도리스가 최상위 수준 프로젝트(Top-Level Project; TLP)로 승격했다고 발표했다.  MySQL 애널리틱스를 활용하는 이 SQL 기반 데이터 웨어하우스는 최근 버전 1.0 그리고 도리스를 다양한 애널리틱스 및 처리 기술과 연결하는 6개의 커넥터 릴리즈를 함께 출시했다(버전 1.0은 여덟 번째 릴리즈다). 특히 이는 데이터 과학 시나리오에서 자주 사용되는 온라인 분석 처리(OLAP) 워크로드를 지원하기 위해 개발됐다.  도리스는 중국의 인터넷 검색 대기업 바이두(Baidu)에서 태어났으며, 당시에는 ‘팔로(Palo)’라고 불렸다. 2017년 오픈소스화되고, 이어 2018년 아파치 인큐베이터에 기증되기 전까지 바이두의 광고 비즈니스를 위한 데이터 웨어하우징 시스템으로 사용됐다.    아파치 임팔라 및 구글 매사를 기반으로 하는 도리스 도리스는 구글 F1(Google F1)을 토대로 2012년 개발된 오픈소스 MPP SQL 쿼리 엔진 구글 매사(Google Mesa)와 아파치 임팔라(Apache Impala)의 기술 통합을 바탕으로 한다. 2014년경 확장성이 뛰어난 분석 데이터 웨어하우징 시스템으로 설계된 매사는 구글의 인터넷 광고 비즈니스와 관련된 중요한 측정 데이터를 저장하는 데 활용됐다.  바이두와 아파치 인큐베이터의 개발자에 따르면 이 데이터베이스는 고가용성, 안정성, 내결함성, 확장성은 물론 단순한 설계 아키텍처까지 제공한다. 아파치 소프트웨어 재단은 공식 성명에서 “단일 시스템(에서의 개발, 배포, 사용)과 많은 데이터 제공 요건을 충족하는 게 도리스의 주요 기능이다”라면서, “이 데이터 웨어하우수는...

오픈소스 데이터 웨어하우스 아파치 도리스 2022.06.27

"주피터부터 R스튜디오까지" 데이터 과학자의 필수 아이템 8선

데이터 과학의 열기가 식을 줄 모른다. 한때 데이터를 수집하고 분석하는 일은 연구소에 있는 소수의 과학자만 할 수 있다고 여겨졌다. 하지만 이제는 모든 기업이 데이터 과학을 활용해 조직을 간소화하고 고객을 만족시키고 싶어 하며, 데이터 과학 관련 툴 시장은 이런 수요를 충족시키기 위해 빠르게 성장 중이다. 불과 몇 년 전만 해도 데이터 과학자는 명령줄 그리고 몇 안 되는 오픈소스 패키지를 사용했다. 이제는 데이터 과학의 많은 허드렛일(예: 데이터 클렌징 등)을 처리하는 전문 툴이 속속 개발되고 있다.  규모도 변하고 있다. 원래 데이터 과학은 과학자가 열심히 실험한 후 행하는 숫자 작업에 불과했다. 이제 데이터 과학은 워크플로우의 가장 중요한 부분이다. 오늘날 기업은 현황을 신속하게 파악하기 위해 비즈니스 보고에 수학적 분석을 통합하고 대시보드를 구축한다. 아울러 속도도 빨라지고 있다. 한때 연간 또는 분기로 이뤄졌던 분석 작업은 이제 실시간으로 실행된다. 기업들은 관리자와 직원이 현명한 결정을 내릴 뿐만 아니라 데이터 과학이 제공하는 모든 것을 활용할 수 있도록 현재 무슨 일이 일어나고 있는지 파악하고 싶어 한다.  여기서는 끝없는 데이터 흐름 분석에 정확성과 과학을 더하는 주요 툴을 소개한다.    주피터 노트북(Jupyter Notebooks) 단어, 코드, 데이터 묶음은 ‘공통어(lingua franca)’가 됐다. 변하지 않는 분석과 콘텐츠로 채워진 정적 PDF는 영구적 기록을 생성하기 때문에 여전히 가치 있지만, 데이터 과학자는 하부의 메커니즘을 이리저리 손보고 싶어 한다. 주피터 노트북을 사용하면 단순히 정보를 확인하는 것 이상의 일을 할 수 있다. 주피터 노트북은 매스매티카(Mathermatica; 계산용 소프트웨어)의 유연성을 차용하고자 했던 파이썬 사용자에 의해 처음 개발됐다. 오늘날 표준 주피터 노트북은 40개 이상의 프로그래밍 언어를 지원한다(R, 줄리아(Julia), 자바, C 언어가 주를 이...

데이터 과학 데이터 애널리틱스 애널리틱스 도구 2022.05.11

AI의 문턱을 낮춘다! ‘워크스테이션’에 지금 주목해야 하는 이유 - IDG Tech Insight

비즈니스 경쟁력을 유지하기 위해 AI를 간과할 수 없는 시대다. 그러나 기업 대부분은 예산 부족과 낮은 하드웨어 성능으로 인해 AI 이니셔티브 추진에 어려움을 겪고 있다. 고가의 서버나 클라우드 서비스를 이용해야 한다는 고정관점이 존재하기도 한다. 이러한 가운데 앞선 기업들은 워크스테이션에 주목하고 또 활용하고 있다. AI 및 데이터 과학 이니셔티브와 관련해 워크스테이션 활용이 증가하고 있는 이유와 활용 방안에 대해 살펴본다. 주요 내용 > 데이터 과학·AI 인프라··· ‘워크스테이션’이 새로운 돌파구인 이유 > 데이터 과학과 AI 작업에 최적화된 A to Z 솔루션, 델 프리시전 DSW 시리즈 4종 > AI·데이터 과학을 위한 워크스테이션 구성법

워크스테이션 Dell 2021.10.18

데이터 과학, 엣지와 만나다··· 워크스테이션에 주목 - IDG Tech Insight

클라우드가 대세화됐지만 데이터 경쟁에서 앞서기를 원하는 기업들에게 클라우드는 오히려 한계를 가진다. 엄청난 양의 데이터가 데이터센터 및 클라우드 외부에서 만들어지고 있지만 이들 데이터를 캡처, 가공, 분석, 활용하는 작업을 모두 클라우드에서 구현하기란 불가능하기 때문이다. 데이터 과학을 현장에 직접 수행하는 ‘엣지 애널리틱스’가 부상한 배경이다. 오늘날 엣지 애널리틱스의 주요 동향을 살펴보는 한편, 엣지 애널리틱스에 특화된 HP의 Z 워크스테이션 라인업을 살펴본다. 아울러 HP Z 워크스테이션을 활용한 앞선 기업들의 사례를 정리했다. 주요 내용 > 데이터 과학, 앞서가려면 ‘엣지’에서! (Feat. HP 워크스테이션) > 데이터 과학 워크플로우를 혁신한다, HP 워크스테이션 Z 시리즈 살펴보기 > HP Z 워크스테이션 케이스 스터디  NASA : 우주 데이터 분석의 해법  아메리칸 에어라인 : 화물 노쇼, 분석으로 대응한다  싸이아크 : 문화재 디지털 아카이빙  VINX 코퍼레이션 : 소매 비즈니스용 예측 솔루션  레드락스 칼리지 : 차세대 교실 지원  스누아이랩 : 서울대학교 JV 1호 기업의 비전 AI 활용법

HP 데이터 과학 데이터 엔지니어 2021.06.18

데이터 과학자에 관한 가장 큰 오해 4가지

데이터 과학 직종에 가장 적합한 인재에 대한 몇 가지 선입견이 있다. 예를 들어, 분석적이고, 세부 사항을 잘 챙기고, 직관력있는 사람을 원할 것이다. 이는 모두 데이터 과학자(data scientists)에게 중요한 자질들이다. 그러나 데이터 과학은 '수'에 정통한 것 이상을 요구하는 분야다. 데이터 과학자는 기업과 기관의 의사결정자에게 영향을 끼쳐야 하고, 회사의 미래에 대한 방향을 제시한다. 유능한 데이터 과학자를 만드는 자질 가운데 논리적으로 쉽게 떠올릴 수 있는 자질들이 많다. 그러나 데이터 과학자는 데이터 분야에 속하지 않는 많은 역량을 필요로 한다. 인포 다이내믹 사이언스 랩스(Infor Dynamic Science Labs)의 최고 과학자이자 수석 부사장인 자이드 네멜딘은 다른 누구보다 이 점을 잘 알고 있다. 네멜딘은 자사를 위해 일할 데이터 과학자를 채용하고 있으며, 회사 내 수많은 비즈니스의 데이터 전략에 대한 가이드라인을 제시하고 있다. 네멜딘에 따르면, 데이터 과학자를 잘못 이해하고 있다면, 지금이야말로 전략을 재평가할 시기다. 1. 데이터 수집에 관한 직종이다 수많은 데이터를 수집, 분류 및 정리, 이해하는 능력은 데이터 과학자에게 아주 중요한 역량이다. 그러나 이들 데이터를 유용한 형식으로 조직 내 다른 사람들에게 프레젠테이션할 수 있는 능력도 필요하다. 네멜딘은 프레젠테이션 스킬이 뛰어난 데이터 과학자를 채용하기 위해, 입사 후보자들에게 각자 열정을 갖고 있는 내용을 주제로 30분간 프레젠테이션을 실시하도록 요구하고 있다. 이는 프레젠테이션 능력 테스트에 목적이 있다. 그 결과, 시작부터 끝까지 데이터를 가장 잘 활용할 수 있는 능력을 갖춘 데이터 과학자로 구성된 팀을 보유하고 있다. 네멜딘에 따르면, 데이터 과학자를 찾을 때 자주 간과하는 자질 가운데 하나가 프리젠테이션 능력이다. 그는 "우리는 여러 소스(출처)에서 계속 증가하는 데이터를 수집하는 세상에 살고 있...

데이터 과학자 데이터 과학 2016.04.18

'데이터 과학 무료 웹 강좌' 개설...존스홉킨스·듀크·스탠포드대

빅데이터가 부상하면서 기업들이 자사 IT인력들을 데이터 과학자, 데이터 아키텍트, 데이터 시각화 전문가, 데이터 엔지니어 등 숙련된 고급 데이터 전문가로 강화하고자 애쓰고 있다. 현재 자신의 IT기술력을 강화하고 새로운 경력 경로를 모색하고 있다면, 미국 대학 강의 무료로 들을 수 있는 웹사이트인 코세라(COURSERA)를 확인하길 바란다. 특히 존스홉킨스대학은 데이터 과학에 특화된 수업을 9강좌나 시작한다. 스탠포드대학의 컴퓨터과학 교수인 앤드류 응과 다프네 콜러가 설립한 코세라는 컴퓨터과학, 생물학, 의학, 경영, 공학, 법학 등 수백 개의 대학 수업에 대해 온라인으로 무료로 접근할 수 있도록 했다. 브라운, 컬럼비아, 노스웨스턴, 프린스턴, 예일 등 100개 이상의 대학과 교육기관들이 여기에 참여해 대규모 개방형 온라인 교육 과정(MOOCs)의 코세라 플랫폼에서 수업을 들을 수 있도록 했다. 코세라의 모든 수업은 무료지만, 이 회사는 공식적인 과정 수료증과 자격증을 받고자 하는 학생들에게 일정 금액을 받아 수익을 얻는다. 코세라는 2012년 4월 사업을 시작하면서 벤처 자금으로 8,500만 달러를 모았다. 올해 봄, 존스홉킨스대학의 ‘데이터 과학 전문 과정이 시작되는데, 이 과정은 총 9개의 수업으로 이뤄진다. 첫 수업은 4월 7일 시작되며 향후 몇 개월 동안 세션이 반복 제공될 예정이다. 학생들은 9개의 강좌 각각에 대해 총 49달러를 지불해야 공식 인증서를 받을 수 있다. 9개 강좌를 모두 끝낸 사람들은 최종 캡스톤 프로젝트(final capstone project)를 더하면-각 과정에 대한 수료증 비용을 지불하고- 존스홉킨스가 주는 전문가 자격증을 받게 된다. 만약 수강생이 이 자격증을 굳이 받지 않아도 된다면, 모두 무료로 강의를 들을 수 있다. 존스홉킨스대학의 데이터 과학 전문 과정을 강의하는 교수진들은 생물통계학의 브라이언 카포 교수, 생물통계학의 로저 펭 부교수, 생물통계학의 제프 리크 조교수다...

빅데이터 데이터 과학자 데이터 과학 2014.03.28

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.