Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

데이터랭글링

아퀘로 라이브러리로 자바스크립트 객체 필터링하기

자바스크립트를 사용한 코딩에는 많은 이점이 있지만 데이터 랭글링은 아마 그 이점에 포함되지 않을 것이다. 그러나 자바스크립트 데이터 랭글링에 어려움을 느끼는 사람들을 위한 좋은 소식도 있다. 높은 인기를 누리는 dplyr R 패키지의 기반인 '데이터 문법' 개념을 아퀘로(Arquero) 라이브러리를 활용해 자바스크립트에서도 쓸 수 있다는 것이다.   워싱턴 대학 인터랙티브 데이터 연구소에서 만들어진 아퀘로는 옵저버블(Observable) 자바스크립트 사용자들 사이에서 가장 유명하지만 다른 방법으로도 사용할 수 있ek. 그 중 하나가 Node.js다.   이 기사에서는 아퀘로를 사용해 자바스크립트 객체를 필터링하는 방법을 알아본다. 마지막 부분에 몇 가지 팁도 소개한다.     1단계. 아퀘로 로드 아퀘로는 옵저버블 자바스크립트와 콰르토(Quarto)에서 표준 라이브러리고 필자도 이 방법으로 아퀘로를 사용한다. 설치는 불필요하다. 노드에서 아퀘로를 사용한다면 npm install arquero --save로 설치해야 한다. 브라우저에서는 <script src="https://cdn.jsdelivr.net/npm/arquero@latest"></script>를 사용한다. 옵저버블의 경우 import {aq, op} from "@uwdata/arquero"로 아퀘로를 로드할 수 있다. 브라우저에서는 aq로 로드되고, 노드에서는 const aq = require('arquero')로 로드할 수 있다.   옵저버블과 콰르토의 나머지 코드는 소개한 그대로 실행해야 한다. 노드와 같은 비동기 환경에서 사용 중이라면 데이터 로드와 처리를 위해 필요한 부분을 조정해야 한다.   2단계. 데이터를 아퀘로 테이블로 변환 aq.from(my_object)를 사용해서 기존 “정규” 자바스크립트 객체를 아퀘로 테이블로 전환할 수 있다.   다른 방법은 아퀘로의 load 함수군을 사...

아퀘로 아퀘로테이블 옵저버블자바스크립트 2022.11.18

글로벌 칼럼 | 데이터 랭글링을 비하해선 안 되는 이유

하버드 비즈니스 리뷰는 데이터 과학자를 지금 세기의 가장 섹시한 직업 중 하나로 꼽았다. 그러나 이 직업에는 섹시하지 않은 많은 수작업이 동반된다. 아나콘다(Anaconda)의 2021 데이터 과학 현황 설문에서 응답자는 업무 시간의 39%를 데이터 준비와 데이터 정제에 사용한다고 답했다. 모델 학습, 모델 선택, 모델 배포에 드는 시간을 다 합친 것보다 더 많다.    데이터 과학자? 데이터 잡역부! 잘못됐다는 이야기는 아니다. 사실 많은 측면에서 이건 정상이다. 몇 년 동안 우리는 암을 치료하는 모델을 구축한다는 둥 데이터 과학의 보기 좋은 면만 부풀려서 말했다. 데이터 과학의 대부분은 데이터를 정제하고 준비하는 과정이며 데이터 과학의 이 측면이 데이터 과학을 잘하기 위한 기반이라는 명백한 현실은 외면했다. 컨설턴트 아론 주는 “모든 통계 분석과 머신 러닝 모델의 품질은 거기에 투입되는 데이터의 품질에 따라 전적으로 좌우된다”라고 말했다.   누군가는 해야 할 성가신 일 긍정적인지 부정적인지는 몰라도 데이터 랭글링(데이터 준비와 정제)에 소비되는 시간은 점점 줄어들고 있다. 현재 데이터 과학자는 업무 시간의 39%를 데이터 랭글링에 소비한다고 답했는데, 작년 아나콘다 설문에서 이 수치는 45%였다. 불과 몇 년 전에는 이 수치가 80%에 근접했다고 추정하는 사람들도 있다. 그러나 오픈 데이터 인스티튜트(Open Data Institute)의 리 도즈는 이처럼 높은 수치는 거의 확실히 부정확한 수치라고 지적했다. 그는 "더 큰 문제는 데이터 랭글링 행위를 비하해 랭글링의 가치에 대한 오해를 불러일으킨다는 점이다. 데이터를 변형하고 탐색하고 더 잘 이해하는 데 시간을 보내는 것은 데이터 과학자라면 당연히 해야 할 일이다. 이것이 데이터 과학자 업무의 재료다. 이 재료를 더 잘 이해하면 그만큼 더 정확한 통찰력을 얻게 된다”라고 말했다. 즉, 사람들은 데이터 과학의 '출력'에 관심을 집중하는 경향이 있지만 '입력'을 간과하면 제대...

데이터과학 데이터랭글링 2021.08.06

IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.