Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

데이터과학

스노우플레이크, “파이썬 기능 강화로 데이터 과학자 공략”

클라우드 기반 데이터 웨어하우스 업체 스노우플레이크(Snowflake)가 데이터 과학자를 잡기 위한 노력에 한창이다. 14일 열린 연례 스노우플레이크 서밋 행사에서 발표된 소식을 보면 주로 파이썬이나 데이터 액세스와 관련된 기능이 주를 이뤘다. 데이터 과학자가 관심을 둘 만한 기능이다. 아직 비공개 프리뷰 단계나 개발 단계의 수준이지만, 이런 서비스를 보강되면 앞으로 테라데이터(Teradata), 구글 빅쿼리(BigQuery), 아마존 레드시프트(Redshift)같은 서비스와 경쟁이 본격화될 것으로 예상된다.    새로 업데이트된 서비스엔 먼저 스노우파크(Snowpark)가 있다. 지난해 출시된 스노우파크는 데이터 프레임의 기능을 제공하는 개발 도구로, 개발자가 선호하는 툴을 스노우플레이크의 가상 웨어하우스 컴퓨팅 엔진에 서버리스 방식으로 설치할 수 있게 도와준다. 앞으로 스노우파크에선 파이썬 기능도 쉽게 이용할 수 있다.  파이썬이 추가되면서 스노우플레이크는 머신러닝을 위한 애플리케이션 개발 속도를 높일 수 있다고 보고 있다. 스노우플레이크의 제품 담당 수석 부사장인 크리스티안 클라이너맨은 “파이썬은 스노우플레이크 고객이 가장 많이 요청한 기능”이라고 강조했다.  업계 애널리스트는 데이터 과학자가 파이썬을 가장 선호하고 있다는 점에서 파이썬 관련 기능이 많아지고 있는 것은 자연스러운 현상이라고 보고 있다. 컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 덕 헨쉔은 “스노우플레이크는 늦은 감이 있다”라며 “테라데이터, 구글 빅쿼리, 버티카(Vertica)와 같은 경쟁 서비스에선 이미 파이썬을 지원한다”라고 지적했다. 스트림릿(Streamlit)이라는 도구도 스노우파크에서 통합 지원한다. 스트림릿은 오픈소스 앱 프레임워크로, 파이썬을 이용해 데이터를 시각화하고 변경하고 공유할 때 사용된다. 보통 머신러닝 개발자나 데이터 과학자 및 엔지니어들이 이용하는 기술이며 지난 3월 스노우플레이크가...

스노우플레이크 머신러닝 데이터과학 2022.06.17

데이터가 서말이라도 '쉬워야' 꿴다…전천후 멀티툴 '파이썬'이 뜬다

파이썬은 R을 넘어서지는 못했을 수 있다. 하지만 사용 편의성과 이에 힘입은 인기 덕에 머지않아 데이터 과학 분야의 주류가 될 조짐이 보인다.   넷플릭스의 제품 혁신 및 개인화 담당 본부장 크리스틴 도이그는 “(넷플릭스에 데이터 과학 팀이 생긴) 초기에 회사에는 한 종류의 데이터 과학자들만 있었다. 그러나 이제 회사의 모든 영역에 침투하고 있다”라고 말했다.  이는 넷플릭스에만 해당하는 일이 아니다. 모든 업종에 걸친 기업들이 맞춤형 서비스를 만들고, 매력적인 사용자 경험을 제공하며 가격을 최적화하는 등의 목적을 달성하려 데이터 과학을 도입했다. 이 과정에서 데이터 과학의 활용은 프로덕트 매니지먼트, 마케팅 및 다른 영역까지 확대됐다.  데이터 과학의 이러한 확산은 데이터 분석에 사용하는 언어가 R에서 파이썬으로 점차 바뀌고 있는 이유이기도 하다. 다변화된 용도에 따라 기업이 다양한 인재를 모집하게 됐고, 파이썬의 대중성은 낮은 진입 장벽이라는 큰 이점을 제공한다.  R 대신 파이썬? 과거에는 데이터 과학을 하려면 R이 필수였다. R 프로젝트 웹사이트에 나와 있는 대로 R은 “데이터 조작, 추산 및 시각화를 위한 통합 소프트웨어 스위트”다. 즉 프로그래밍 언어가 아니라 이를 포함하는 소프트웨어 패키지다. R은 통계 및 수치 분석에 특화된 본질에 충실해 왔고, 여전히 데이터 과학을 하는 통계학자들 사이에서 유용하게 쓰이고 있다. 그러나 최근 데이터 과학의 활용 영역이 확장됨에 따라 이러한 강점은 한계로 작용하고 있다. 파이썬 기반 데이터 과학 플랫폼 ‘아나콘다(Anaconda)’의 제품 담당 부매니저 시탈 칼버기는 “물론 데이터 과학자들이 일반 프로그래머보다 더 통계에 치중된 업무를 하는 것은 사실이다”라며 “제품의 성과를 표시 및 예측하고, A/B 테스팅 등의 디자인 작업을 지원하며 계산 작업을 최적화하는 복잡한 통계 관련 알고리즘을 개발하는 것이 주요 업무다”라고 말했다. 하지만 요즘 데이터 과학자들이 프로그래...

파이썬 R언어 데이터과학 2022.06.02

커리어 로드맵 : 데이터 엔지니어

데이터 엔지니어링은 소프트웨어 엔지니어링과 데이터 과학의 요소를 결합한, IT 영역에서 빠르게 성장 중인 IT 분야 중 하나다. Indeed.com에 따르면, 데이터 엔지니어는 데이터 과학 프로젝트에 사용되는 아키텍처를 개발하고 유지하며 데이터가 서버와 애플리케이션 사이를 중단 없이 흐르도록 한다.  데이터 엔지니어는 다양한 운영체제 및 데이터베이스에 익숙해야 하고 소프트웨어를 쓰고 프로그래밍할 수도 있어야 한다. 데이터 웨어하우스 및 데이터 분석 경험, 그리고 뛰어난 비판적 사고와 커뮤니케이션 역량도 필요하다. 데이터 엔지니어는 교육, 직장 내 훈련, 지속적인 자격증 습득의 조합을 통해 기술력을 쌓을 수 있다. 인디드(Indeed)는 자격증 습득이 자신의 역량을 보여주고 앞서 나가기 위한 좋은 방법이라고 강조한다.  데이터 엔지니어가 되기 위해 무엇이 필요한지를 알아보기 위해 AI 기반의 품질 모니터링 플랫폼 전문업체인 유닛큐(unitQ)의 데이터 엔지니어인 랜스 마일스를 인터뷰했다.    교육과 취업  마일스는 2013년 캘리포니아 산타크루즈 대학에서 신경과학 학사 과정을 졸업한 뒤 2017년 워싱턴 대학에서 데이터 과학 자격증을 취득하고, 2020년에 캘리포니아 버클리 대학에서 정보 및 데이터 과학 석사 학위를 취득했다.  마일스는 “내가 거쳐온 단계를 뒤돌아볼 때 한 가지 큰 영향을 미친 경험이 있다. 대학 마지막 학기의 파이썬 과정이었던 생물학자를 위한 프로그래밍이다. 이 경험이 새로운 열정의 바탕이 됐다”고 말했다.  잘 아는 영역에서 나와 처음부터 시작해야 하는 새로운 영역으로 들어간다는 것은 겁나는 일이었다. 마일스는 매일 코드를 쓰며 방대한 서열 데이터 집합에서 정보를 추출해 단백질 서열의 물리화학적 속성을 계산하기 위한 방법을 개발하고, 유전자의 길이와 위치를 알아내고 바이러스 DNA의 특성을 파악했다.  마일스는 “정리되지 않은 데이터 집합을 간결한 결과로 ...

데이터엔지니어 데이터과학 머신러닝 2022.05.23

의료 인공지능 기업 LUNIT : 데이터 사이언스를 위한 HP Z 워크스테이션 CASE STUDY

대한민국 딥러닝 1호 스타트업 기업 루닛의 대표 제품인 ‘루닛 인사이트(Lunit INSIGHT)’는 딥러닝 기반 인공지능 기술을 활용한 의료AI 제품으로 두 종류가 있다. 하나는 흉부 X레이를 분석해 폐 관련 질환을 빠르고 정확히 진단하는 ‘루닛 인사이트 CXR’, 다른 하나는 유방암 등이 의심되는 이상 부위를 알려주는 ‘루닛 인사이트 MMG’다. 이 의료영상 검출 보조 소프트웨어 제품의 개발과 활용에 HP 워크스테이션 모델이 중요한 역할을 수행했다. <8p> 주요 내용 - HP 기술의 정점을 현장에서 구현한 루닛(Lunit)사의 워크스테이션 실사용기 - 극한의 환경에서도 안정적으로 구동 가능한 HP의 내구성과 편의성  - 루닛의 향후 행보에도 든든한 파트너가 될 HP - 무한대의 가능성을 담은 HP 워크스테이션     인텔® 제온® W-11955M 프로세서의 탁월한 설계를 경험해보세요. Ultrabook, 울트라북, Celeron, 셀러론, Celeron Inside, Core Inside, Intel, 인텔, Intel 로고, 인텔 로고, Intel Atom, 인텔 아톰, Intel Atom Inside, Intel Core, 인텔 코어, Intel Inside, Intel Inside 로고, Intel vPro, 인텔 v프로, Intel Evo, 인텔 Evo, Pentium, 펜티엄, Pentium Inside, vPro Inside, Xeon, 제온, Xeon Inside, Intel Agilex, 인텔 Agilex, Arria, Cyclone, Movidius, eASIC, Iris, Killer, MAX, Select Solutions, 셀렉트 솔루션, Stratix, Tofino, Intel Optane 및 인텔 Optane은 인텔사 또는 그 자회사의 상표입니다.

데이터과학 인공지능 루닛 2021.12.01

디지털 트랜스포메이션에서 한발 앞서가기 위한 4가지 성공 전략

기업이 팬데믹 위기를 극복하기 위해 IT 부서에 의존하면서 분석과 AI에 대한 관심과 투자가 증가했습니다. 이러한 추세는 지속적으로 이어질 전망입니다. 전략은 성공적이었지만 일관된 분석과 AI 전략 개발에는 여전히 어려움을 겪는 조직이 많습니다. 지금은 IT 및 데이터 사이언스 리더가 분석과 AI 채택을 가속화하기 위해 일관된 전략을 추진해야 하는 시기입니다. 특히 기술 부채가 계속해서 큰 부담을 주고 있으므로, 기존 투자에서 더 많은 가치를 창출할 수 있는 창의적인 방법을 찾는 것이 중요합니다. 가장 성공적인 조직들이 비즈니스 차별화와 탄력성을 위해 분석과 AI 전략을 구축하는 4가지 방법과 실제 사례를 소개합니다. <14p> 주요 내용 - 분석과 AI를 위한 클라우드의 과제 - 지능형 클라우드로의 이동  - 현재 ModelOps 프로세스 평가 - 데이터 사이언스 업무를 지원할 커뮤니티의 활성화  - 거버넌스 도입  - 비즈니스 사용 사례

AI 분석 클라우드 2021.09.23

글로벌 칼럼 | 데이터 랭글링을 비하해선 안 되는 이유

하버드 비즈니스 리뷰는 데이터 과학자를 지금 세기의 가장 섹시한 직업 중 하나로 꼽았다. 그러나 이 직업에는 섹시하지 않은 많은 수작업이 동반된다. 아나콘다(Anaconda)의 2021 데이터 과학 현황 설문에서 응답자는 업무 시간의 39%를 데이터 준비와 데이터 정제에 사용한다고 답했다. 모델 학습, 모델 선택, 모델 배포에 드는 시간을 다 합친 것보다 더 많다.    데이터 과학자? 데이터 잡역부! 잘못됐다는 이야기는 아니다. 사실 많은 측면에서 이건 정상이다. 몇 년 동안 우리는 암을 치료하는 모델을 구축한다는 둥 데이터 과학의 보기 좋은 면만 부풀려서 말했다. 데이터 과학의 대부분은 데이터를 정제하고 준비하는 과정이며 데이터 과학의 이 측면이 데이터 과학을 잘하기 위한 기반이라는 명백한 현실은 외면했다. 컨설턴트 아론 주는 “모든 통계 분석과 머신 러닝 모델의 품질은 거기에 투입되는 데이터의 품질에 따라 전적으로 좌우된다”라고 말했다.   누군가는 해야 할 성가신 일 긍정적인지 부정적인지는 몰라도 데이터 랭글링(데이터 준비와 정제)에 소비되는 시간은 점점 줄어들고 있다. 현재 데이터 과학자는 업무 시간의 39%를 데이터 랭글링에 소비한다고 답했는데, 작년 아나콘다 설문에서 이 수치는 45%였다. 불과 몇 년 전에는 이 수치가 80%에 근접했다고 추정하는 사람들도 있다. 그러나 오픈 데이터 인스티튜트(Open Data Institute)의 리 도즈는 이처럼 높은 수치는 거의 확실히 부정확한 수치라고 지적했다. 그는 "더 큰 문제는 데이터 랭글링 행위를 비하해 랭글링의 가치에 대한 오해를 불러일으킨다는 점이다. 데이터를 변형하고 탐색하고 더 잘 이해하는 데 시간을 보내는 것은 데이터 과학자라면 당연히 해야 할 일이다. 이것이 데이터 과학자 업무의 재료다. 이 재료를 더 잘 이해하면 그만큼 더 정확한 통찰력을 얻게 된다”라고 말했다. 즉, 사람들은 데이터 과학의 '출력'에 관심을 집중하는 경향이 있지만 '입력'을 간과하면 제대...

데이터과학 데이터랭글링 2021.08.06

데이터 과학을 위해 '더 개선된' 최신 필수 파이썬 툴 6가지

데이터 분석을 마스터하려면, 또는 단순히 사용하려고 해도 필요한 것은 결국 파이썬이다. 파이썬은 배우기 쉬우며 지원의 폭도 넓고 깊다. 또한, 거의 모든 데이터 과학 라이브러리와 머신 러닝 프레임워크가 파이썬 인터페이스를 지원한다. 지난 몇 개월 동안 파이썬을 위한 여러 데이터 과학 프로젝트에서 주요 기능 업데이트가 포함된 새로운 버전이 나왔다. 실제 수치 계산을 위한 프로젝트도 있고, 이와 같은 작업에 최적화된 빠른 코드를 더 쉽게 작성할 수 있는 프로젝트도 있다. 데이터 과학을 위한 필수 파이썬 툴 6가지를 정리했다.   사이파이 1.7 빠르고 강력한 수학 라이브러리를 원하는 파이썬 사용자에겐 넘파이(Numpy)가 있지만 넘파이 자체는 구체적인 작업에 초점을 두지 않는다. 그래서 필요한 것이 사이파이(SciPy)다. 넘파이를 사용해 선형 대수부터 통계 작업, 신호 처리에 이르기까지 일반적인 수학 및 과학 프로그래밍 작업을 위한 라이브러리를 제공한다. 사이파이는 오래전부터 수학과 통계학을 다루기 위한 편리하고 광범위하게 사용되는 툴을 제공했다. 여러 버전에 걸쳐 강력한 하위 호환성을 제공했지만 1.0 릴리스가 나오기까지 상당히 오랜 시간이 걸렸다. 코어 개발자인 랄프 고머스에 따르면, 사이파이 프로젝트가 버전 1.0이 나올 수 있었던 가장 큰 이유는 프로젝트를 감독, 관리하는 방법의 통합이다. 하지만 맥OS와 윈도우 빌드를 위한 지속적 통합 프로세스와 사전 빌드된 윈도우 바이너리를 제대로 지원한 것도 한몫을 했다. 특히 후자는 윈도우 사용자가 별도 과정 없이 사이파이를 사용할 수 있음을 의미한다. 사이파이 프로젝트는 2017년 1.0 릴리스 이후 지금까지 7차례 주 릴리스를 내놨고 그 과정에서 다음과 같이 부분이 개선됐다.   파이썬 2.7 지원 종료와 그 이후의 코드베이스 현대화 더 많은 기능, 개선된 문서, 많은 새로운 알고리즘(예를 들어 성능이 향상되고 현대화된 인터페이스를 갖춘 새로운 고속 푸리에 변환 모듈)으로 사이파이...

데이터과학 파이썬 사이파이 2021.07.26

“분석가 가운데 스토리텔러” 시민 데이터 과학자의 부상

하버드 비즈니스 리뷰(Harvard Business Review)에 따르면, 데이터 과학자는 현 세기의 “가장 섹시한 직업”이다. 방대한 데이터 소스에서 지식을 만들어내는 역량은 기업의 디지털 트랜스포메이션에서 필수적이며, 데이터 과학자라는 직업군이 인기를 얻는 이유도 여기에 있다. 데이터 과학자는 데이터 소스를 열고 개선하고 나아가 이를 돈으로 바꾼다. 그러나 기업에서 필요한 이상적인 조건을 갖춘 데이터 과학자를 찾기는 쉽지 않은 일이다.      시민 데이터 과학자 : 정의  시민 데이터 과학자는 이 분야에서 필요한 인력의 탐색 범위를 넓혀준다. ‘데이터 과학자’라는 역할 앞에 ‘시민’이라는 단어를 붙여 놓으니 언뜻 혼란스럽게 보일 수 있다. 구체적으로 시민이라는 용어는 기술적이고 고도로 전문화된 데이터 과학자와 달리 특정한 과학적 훈련을 받지 않은 사람들을 의미한다.  가트너에 따르면 “고급 분석 기법 또는 예측 특성을 사용해서 모델을 만들지만, 원래의 직능은 통계학과 분석 영역 바깥에 있는” 사람들이다. 시민 데이터 과학자는 회사 데이터를 기반으로, 이 데이터를 모두가 이해할 수 있는 언어로 변환함으로써 회사에 대한 ‘스토리’를 만들어낸다. 이론적으로 이들은 특정한 과학적 훈련을 받지 않았음에도 불구하고 여러 전문가(수학자, 컴퓨터 과학자, 통계학자)의 기술을 결합한다.  그러나 기술적 전문성을 넘어 진정한 차이를 만들어내는 것은 이른바 “소프트 스킬)Soft Skill)”이다. 무엇보다 데이터 과학자에게는 호기심이 필요하다. 다른 직원이나 부서에 대한 흥미를 계산해서 ‘변환’하기 위해 대량의 데이터에서 잠재적으로 유용한 정보를 파악할 수 있어야 한다.      시민 데이터 과학자의 툴  가트너는 데이터 과학자 업무의 40%가 2030년까지 자동화될 것으로 예상한다. 기업은 이런 기술을 더 폭넓은 직원이 사용할 수 있도록 함으로써 시민 데이터 과학자를 더 ...

데이터과학 분석가 2021.06.25

클라우드와 진화하는 데이터 사이언스 및 5가지 성공 요건 : TDWI Research

오늘날 많은 기업은 분석 작업을 지원하기 위해 다중 플랫폼 환경을 조성하고 있습니다. 클라우드는 이 전략의 핵심입니다. 실제로 TDWI 연구에 따르면, 클라우드 데이터웨어 하우스 또는 데이터 레이크와 같은 플랫폼은 분석을 지원하기 위한 데이터 관리의 성장점이 됩니다. 클라우드에는 고급 분석을 위한 수많은 이점이 존재합니다. 그 중 최고는 확장성과 탄력성을 꼽을 수 있습니다. 이 체크리스트는 클라우드 기반 실사례 평가, 클라우드 컴퓨팅 아키텍처 및 계획 고려 사항을 포함하여 데이터 사이언스에 클라우드를 활용하는 5 가지 모범 사례를 실었습니다. <12p> 주요 내용 - 분석 실사례에 대한 평가 - 데이터 중력에 대한 고찰 - 진화하는 분석 아키텍쳐에 대한 이해 - 데이터 사이언스 운영화에 대한 노력

데이터과학 데이터레이크 고급분석 2021.02.26

애자일로 더욱 혁신적인 신기술 POC 진행하기

개발자, 엔지니어, 데이터 과학자들이 시도하고 적용 방법을 배우고, 기업 적용 가능성을 평가할 새롭고 흥미로운 기술이 많다. 이런 기술을 배울 때 IT나 데이터 부서는 개념 증명(Proof of Concepts, POC)을 수행해서 사용 사례, 성능, 통합 기능, 기타 요건을 검증하는 경우가 많다. IT와 데이터 부서는 새로운 자바스크립트 라이브러리, 데브옵스 도구, 공공 클라우드 기능, 로우-코드 플랫폼, 데이터베이스 기술, 머신 러닝 모델, 데이터 통합에 POC를 수행한다. 스크럼 같은 애자일 방법론을 적용하여 개념 증명을 실행하면 여러 이점이 있다. 애자일 부서는 스프린트를 시작할 때 목표를 정의한 후, 학습한 것을 활용하여 향후 스프린트에서 새로운 실험과 검증의 우선순위를 설정한다.   애자일 부서 또는 다른 기술 전문가가 주제의 전문가라서 성공 기준을 판단할 수 있을 때에는 POC로 새로운 기술을 신속하게 검토하는 것은 상대적으로 간단하다. 애자일 부서는 스파이크와 조사 지향적인 작업을 나타내는 백로그의 특수 카드를 정의하여 스프린트에서 POC 관련 작업의 일정을 수립한다. 스파이크의 수용 기준은 성공을 정의하는 데 도움이 되며, 부서는 기술이 변화에 대한 승인을 받을 시기를 결정할 수 있다. 승인된 후에는 플래그 기능을 사용하여 천천히 새로운 기술을 프로덕션 단계에 도입할 수 있다.   복잡한 POC에 애자일 방법론을 적용하라   광범위한 POC를 계획하고 실행하면 특히 머신러닝, 인공 지능, 사물 인터넷, 블록체인 같은 새로운 기술을 검증할 때 추가로 문제가 발생한다. POC는 기본적인 기능, 선택된 플랫폼, 기술 적용, 적용된 비즈니스 요건에 대한 실험이다. 부서는 이 모든 차원과 그 의존성에 따라 발견 과정을 반복하여 비즈니스적 가치, 해결책, 기술적 접근방식을 검증해야 한다. 새로운 기술의 애자일 POC를 다른 애자일 이니셔티브와 비교할 때 여러 가지 극명한 차이점이 있다.    •&nbs...

데이터과학 데브옵스 애자일 2020.11.16

IDG 블로그 | 선거에서 점점 중요해지는 클라우드의 역할

1년 전 필자는 2020년 대선을 두고 선거에서 이기기 위해서는 클라우드 컴퓨팅과 데이터 과학을 잘 이용하는 것이 얼마나 중요한지에 대해 이야기한 적이 있다. 이제 그 결과를 알게 될 시점이다.    당시 필자의 기본적인 주장은 데이터의 진정한 의미에 중점을 두는 이들 기술이 전통적인 자동 녹음 전화나 방문 선거운동보다 더 중요하다는 것이었다. 유권자를 더 잘 이해할수록 효과적으로 공략할 수 있기 때문이다. 데이터 과학과 클라우드 컴퓨팅을 이용해 선거운동은 일부 숨겨진 결론에 도달할 수 있는데, 이를 통해 후보자의 기회를 극대화할 수 있다. 정교한 계산과 분석은 같은 데이터에서 전통적인 방식으로는 보이지 않는 패턴을 얻어낼 수 있다. 예를 들어, 데이터 과학은 특정 후보에게 투표할 것 같지만 결정을 하지 않은 유권자를 찾아내 투표하도록 동기를 부여할 수 있다. 연방 선거와는 전혀 관계없는 지역 법안에 대한 반대를 표명하고, 이 화제를 메시지에 이용해 부동층의 10%를 더 투표하게 하고, 그중 80%가 우리 후보에게 투표하게 할 수도 있다. 메시지를 무차별적으로 난사하고 부동층에 닿기를 기도하는 방식과 정확도를 비교해 보라. 사람의 머리로는 데이터에서 이런 패턴을 찾아내지 못한다. 있는지도 몰랐던 것을 찾아내려면 머신러닝을 사용하는 첨단 분석이 필요하다.  무익해 보이는 데이터 더미를 무기로 만들 수 있는 역량은 2012년에는 멋진 무엇이었지만, 2020년에는 승산을 높이기 위한 필수적인 요소이다. 현대의 선거운동은 정말로 데이터 싸움이며, 후보자의 이상을 홍보하는 것보다는 유권자를 전략적으로 노리는 것이 중요하다. 이런 세상에서 후보자의 공약은 동적이다. 선거운동의 메시지가 어떻게 보이는지는 누가 보는지에 달려있다. 같은 동네의 이웃이라도 서로 다른 메시지를 보게 될 수도 있다. 심층 분석과 AI는 이웃 사람이라도 서로 다른 화제에 반응한다는 것을 알아낸다. 결론적으로 최고의 데이터 과학 접근법을 사용하고 클라우드 컴퓨팅...

미국 대통령선거 데이터과학 2020.11.04

"시킨다고 되는 게 아냐" 개발·운영 민첩성, 어떻게 달성할 것인가?

기업 경영진은 단단한 성 안에 있으면서 조직에 민첩성이 필요하다고 이야기하지만, 민첩성을 강요하고 지시할 수는 없는 법이다. CIO와 IT 경영진이 애자일 방법론 표준이라고 말하는 활동, 지표 및 책임은 표준화할 수는 있지만, 모든 구성원이 애자일 문화와 마음가짐을 갖도록 강요할 수는 없다. 애자일 도구를 선택하고 데브옵스 활동을 통해 더 많은 것을 자동화하고 시민이 참여하는 데이터 과학 프로그램을 활성화할 수 있지만, 도입을 강제하고 직원 만족도를 요구할 수는 없다. IT 운영 활동에서 하이브리드 멀티클라우드 아키텍처를 운영할 수는 있지만 그렇다고 해서 비용이 최적화되거나 인프라가 마법처럼 자동으로 확장 및 축소되는 것은 아니다. 따라서 애자일 프로세스를 신속하게 표준화하거나 애자일 아키텍처로 전환하여 기적처럼 기술 부채를 해결하고, 즉흥적으로 애자일 작업 방식으로 전환하려 했다면 안타깝게도 실망스러울 것이다. 민첩성은 무료도 아니고, 저렴하지도 쉽지도 않다. 간트 차트의 민첩성은 고정된 기간이나 계획으로 관리할 수 있는 것이 아니다. 필자는 민첩성이 주로 상향식 혁신이라 생각하지만 그렇다고 해서 개발자, 엔지니어, 테스트 담당자, 스크럼 마스터 및 기타 IT 부서원이 각기 독립적으로 민첩성을 유도할 수 있는 것은 아니다. 전체로서의 부서는 협업하고 타협을 인정하며 이득에 대한 동의가 있는 애자일 운영 원칙을 정의해야 한다. 민첩성은 지시할 수도 없고 모든 구성원의 기여해야 하는 것이라면, 조직은 어떻게 민첩해질 수 있을까? 애자일 방법론, 데이터 중심적인 활동 및 데브옵스 문화 도입 정신 측면에서 IT 조직의 모두가 협업하여 민첩성을 유도할 수 있는 방법을 살펴보자.     애자일 방법론 사례를 만들라  필자의 저서 ‘디지털 유도하기(Driving Digital)’ 2장의 핵심은 기본적인 스크럼 활동에서 역할 및 책임 할당, 멀티 스프린트 백로그 계획 및 예측 활동 표준화 등 더욱 포괄적인 애자일 계획 프로세스로 전환하...

유연성 민첩성 데이터과학 2020.10.15

'코로나19가 데이터 과학을 바꾼다' 일부 모델, 재조합 필요

코로나19 팬데믹이 산업에 막대한 영향을 미치고 있음은 주지의 사실이다. 그러나 많은 사람이 아직 인지하지 못한 부분은 현재의 데이터 과학 프로덕션 환경에 미치는 영향 역시 크다는 점이다. 교통과 쇼핑 패턴이 바뀌고 공급망이 가로막히고 국경이 폐쇄되면서 세분화와 예측에 사용되는 모델의 상당수가 제대로 기능하지 못하고 있다.   간단히 말해, 사람들의 행동이 근본적으로 바뀌면서 이전의 행동 패턴을 기반으로 하는 데이터 과학 모델은 변화에 적응하는 데 어려움을 겪는다. 새로운 데이터가 새로운 현실을 반영하기 시작하면 데이터 과학 시스템이 적절한 시간 내에 적응하는 사례도 간혹 있다.  그러나 새로운 현실이 완전히 다르고 새로운 데이터가 새 시스템을 학습시키기에 충분하지 않은 경우도 있다. 아예 시스템에 구축된 기본적인 전제가 더 이상 적용되지 않아 모델 생성부터 프로덕션 배포에 이르는 전체 프로세스를 손봐야 할 수도 있다. 이번 기사에서는 과거의 데이터가 완전히 의미를 잃을 때, 기본 전제가 더 이상 유효하지 않을 때, 또는 전체적인 시스템의 패턴이 바뀔 때 어떤 일이 발생하는지에 대한 다양한 시나리오와 몇 가지 예를 살펴본다.  그런 다음 프로덕션 시스템을 업데이트할 때 데이터 과학 팀이 직면하는 과제에 대해 알아보고, 마지막으로 견고하고 미래에 대비한 데이터 과학 환경을 위한 권장 사항을 제안한다. 데이터 과학 영향 시나리오 1. 데이터와 프로세스 모두가 변했을 경우  가장 파급력이 큰 시나리오는 기반 시스템의 완전한 변화다. 데이터 과학 프로세스를 업데이트해야 할 뿐만 아니라 애초에 설계에 반영된 전제도 재검토해야 한다.  이를 위해서는 비즈니스 지식을 이해해 수용하고, 데이터 소스를 탐색해 더 이상 존재하지 않는 데이터를 대체하고, 적절한 모델을 선택해 튜닝하는 과정으로 진행되는, 완전히 새로운 데이터 과학 생성 및 프로덕션화 사이클이 필요하다. 예를 들면 교통량 예측, 특히 갑작스럽게 차단...

코로나19 데이터과학 2020.06.12

'절차 간소화부터 자동화까지' AI옵스란 무엇인가

데브옵스(DevOps)와 SRE(Site Reliability Engineering)는 애플리케이션을 관리 및 유지하는 데 필수적이다. 여기에 더해 AI옵스(AIops)가 효율성을 한 단계 더 높일 수 있다. IT 운영팀은 시스템 및 애플리케이션의 성능 문제를 여러 툴을 사용해 모니터링, 진단, 해결한다. 1,300 명의 IT 전문가를 대상으로 한 ‘모니터링 및 AI옵스의 미래(future of monitoring and AIops)’에 관한 최근 설문조사에 따르면 응답자의 42%가 10가지 이상의 모니터링 툴을, 19%는 25가지 이상의 툴을 사용한다.  단지 시스템을 원활하게 운영하고 애플리케이션 오류를 모니터링, 알림, 조사, 해결하는 데 필요한 데이터를 제공하는 것치고는 너무 많은 도구를 사용하는 것이 아닐까?    여기에는 이유가 있다. 만능 모니터링 툴이 없기 때문이다. 수십 개의 모니터링 툴은 각각 다 하는 역할이 있다. 멀티 클라우드 환경에서 미션 크리티컬 애플리케이션을 구동하는 경우라면 특히 그렇다. 게다가 모바일 앱, 마이크로서비스, 데이터옵스, 데이터 과학에 대한 투자가 진행되면서 도메인별 모니터링 기능을 제공하는 새로운 모니터링 툴까지 등장하고 있다.  AI옵스 플랫폼의 목표는 이런 복잡한 모니터링 툴 환경을 단순화하는 것이다. AI옵스는 높은 수준의 애플리케이션 서비스를 필요로 하는 기업이 모니터링 툴과 IT 운영 워크플로우의 복잡성을 한층 원활하게 처리하는 데 도움을 준다. 이름에서 알 수 있듯 AI옵스는 머신러닝과 자동화 기능을 IT 운영에 제공한다. 이를 통해 오류를 신속하게 해결하고, 성능에 영향을 미치는 운영 추세를 식별하고, 문제 해결에 필요한 절차를 간소화하도록 하기 위해서다.  AI옵스는 새로운 플랫폼이다. 위의 설문조사에서 42%의 응답자가 AI옵스라는 말을 들어본 적이 없거나, IT 운영에 머신러닝을 적용하는 것이 크게 유효하지 않을 것 같다고 밝혔다. 불...

애플리케이션 AI옵스 SRE 2020.05.13

올바르게 구현된 AI : 데이터-훈련-추론 AI 모델의 이해

데이터 사이언스 전문가가 아니더라도 엔터프라이즈 AI의 가장 복잡한 요소까지 이해하고 해석하여 실행에 옮길 수 있다면 어떨까요? 지금까지 엔터프라이즈 AI는 모델 개발 및 훈련에 정통한 분석 전문가들의 전유물로 여겨지곤 했습니다. 하지만 AI 중심의 이니셔티브가 비즈니스의 전 범위로 확장되면서 상황은 완전히 달라지고 있습니다. 이러한 변화의 선두에는 가치 기반의 AI 활동 프레임워크가 있습니다. 이것을 데이터-훈련-추론(Data-Train-Inference, DTI) AI 모델이라고 하는데, 본 문서에서는 이 AI 모델에 대해 설명하고자 합니다.  주요 내용 - 데이터에 관한 네 가지 진실 - 속도 및 정확성에 대한 요구와 해묵은 갈등 - 추론의 실례 - 모델의 완성

학습 인공지능 AI 2019.11.13

IDG 블로그 | 선거운동 필승 조합은 데이터 과학과 클라우드 컴퓨팅

대학 시절 필자는 워싱턴 지역에서 정치 컨설팅 회사들을 위한 컴퓨터 컨설팅을 한 적이 있다. 양쪽 진영을 오가면 일을 했는데, CP/M 기반 PC를 당시로써는 신문물인 LAN 상에 설치했다. 아이디어는 기본적인 선거운동 프로세스, 즉 DM이나 전화 목록 관리 등을 제공해 주 단위, 지역 단위, 연방 단위 선거운동을 지원하는 것이었다. 비교적 간단한 일이었다.   2020년으로 돌아와 보자. 이제 선거운동 본부에서 사용하는 시스템은 1만 배는 더 정교한 것이다. 보통 데이터는 퍼블릭 클라우드 서비스 업체로 보내고, 첨단 데이터 과학으로 선거운동용으로 알려진 데이터의 효율성을 극대화한다. 현대 선거운동에서 가장 가치있는 사람은 선대본부장이 아니라 선거 운동 대상을 효과적으로 겨냥하는 데 이들 데이터를 이용하는 일을 맡은 사람들이다. 이 일을 제일 잘하는 후보가 이길 가능성이 크다. 선거운동에도 몇 가지 새로운 경향이 나타나고 있다. 우선, 퍼블릭 클라우드 컴퓨팅이 데이터를 저렴하게 저장하는 곳으로 받아들여지고 있다. 둘째, 분석이나 통계 툴 같은 데이터 과학 툴은 이미 5세대 또는 6세대 툴을 사용한다. 마지막으로, 데이터 패턴을 파악하는 데 AI 기술을 사용한다. AI 기술은 2020년 미국 대선의 판도를 바꿀 수도 있다. 그렇다면, 투표의 마법은 데이터의 어느 부분에서 일어나는 것일까? 부동층을 정확하게 겨냥하는 데 있다. 심지어 본인이 부동층인지 모르는 사람도 있다. 이는 유권자가 방문하는 웹 사이트나 참여하는 소셜 미디어 포스트 등과 같은 패턴을 통해 이루어진다. 그리고는 타깃 광고나 소셜 미디어 경험, 눈에 띄는 뉴스 아이템과 같은 영향력 있는 자극을 배치한다. 어떤 것이라고 유권자를 한 방향으로 밀 수만 있으면 된다. 물론 이를 적절한 시간에 의도적인 방법으로 한 명의 유권자에게 보내는 것이다. 선거운동은 기업이 아니다. 훨씬 더 큰 무작위 조직으로, 한두 해 정도 함께 일하고 다음 선거까지는 축소된다. 대부분을 새로 시작할 수 있다는...

선거운동 유권자 데이터과학 2019.11.06

데이터 과학과 머신러닝에 데브옵스 적용하기

데이터 과학자의 업무와 요구사항 중 일부는 소프트웨어 개발자와 동일하다. 데이터 과학자와 소프트웨어 엔지니어 모두 목적을 이루기 위해 코드를 계획, 설계, 코딩, 반복, 테스트하고 배포한다. 소프트웨어 개발자에게는 이 과정이 곧 맞춤형 코딩 애플리케이션과 마이크로서비스를 의미하는 경우가 많다. 데이터 과학자는 데이터옵스와의 데이터 통합을 구현하고 분석 모델을 통해 예측을 하고 최종 사용자가 결과를 살펴보는 데 도움이 되는 대시보드를 만든다.   자동화 및 운영 엔지니어와의 협업을 추진하는 데브옵스 엔지니어는 범위를 확대해서 데이터 과학자에게도 서비스를 제공해야 한다. 여러 데이터 과학팀을 둔 대규모 조직이라면 분석 모델 개발, 테스트, 배포를 위한 복합적인 툴을 제공하는 알테릭스 애널리틱스(Alteryx Analytics), 데이터브릭스(Databricks), 다타이쿠(Dataiku)와 같은 데이터 과학 플랫폼에 투자할 수 있다. 이와 같은 툴은 데이터옵스 및 분석 역량, 통합 옵션, 거버넌스, 비즈니스 사용자를 위한 툴, 배포 옵션 등을 서로 경쟁적으로 제공한다.   데이터 과학자를 위한 데브옵스 요구사항 조직에서 데이터 과학 플랫폼에 투자할 준비가 되지 않았거나 소규모 데이터 과학팀에서 기본적인 운영 기능만 필요한 경우도 있다. 여기에 해당된다면 플랫폼을 선택해 사용하는 것보다 데이터 과학팀에 데브옵스 모범사례를 적용하는 편이 더 나을 수 있다. 이를 위해 소프트웨어 개발팀에 사용되는 많은 애자일 및 데브옵스 패러다임을 몇 가지 중요한 조정 과정을 거쳐 데이터 과학 워크플로우에 적용할 수 있다. 데이터 과학자의 프로세스는 개발자 워크플로우와 비슷하지만, 다음과 같은 몇 가지 중요한 차이점도 있다. -    데이터 과학 작업에는 데이터 집합과 모델, 구성과 관련해서 훨씬 더 많은 실험이 필요하다. 대부분의 소프트웨어 개발 릴리스 관리 방식에 사용되는 간단한 계획, 빌드, 테스트, 배포 주기와는 다르다. &...

데브옵스 데이터과학 2019.07.22

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.