AIㆍML / 오픈소스

MIT 출신 스타트업 데이터세보, 합성 데이터 품질 검증하는 오픈소스 공개

Anirban Ghoshal | ITWorld 2022.09.30
MIT 컴퓨터과학 및 인공지능 연구소 출신 연구원이 만든 스타트업 데이터세보(DataCebo)가 합성데이터(synthetic data) 품질을 실제 데이터와 비교 분석해주는 SD메트릭스(Synthetic Data Metrics, SD Metrics)를 공개했다. 
 
ⓒ 데이터세보

SD메트릭스는 파이썬 라이브러리 형태로 만든 오픈소스 애플리케이션이며, 적용된 모델과 상관없이 다양한 테이블 형식의 합성 데이터를 평가한다. 사용자는 통계, 효율성, 개인정보 보호와 관련 범주를 정하고 특정 지표를 기준으로 데이터 품질을 확인할 수 있다. 

데이터세보의 공동 설립자 네하 팟키는 “테이블 형태의 합성 데이터를 만들 경우 실제 데이터와 합성 데이터들의 품질을 비교할 수 있는 기준이 필요하다. 각 기준은 커버리지, 상관관계 같은 데이터의 특정 요소를 측정한다. 사용자는 SD메트릭스 같은 도구로 어떤 항목을 보존 혹은 삭제해야 할지 결정하며 합성 데이터의 수준을 더욱 높일 수 있다”라고 밝혔다. 

특히 SD메트릭스에는 ‘카테고리커버리지(CategoryCoverage)’와 ‘레인지커버리지(RangeCoverage)’라는 기능을 제공하는데, 해당 기능은 합성 데이터가 실제 데이터값과 유사한 범위 안에서 생성되고 있는지 수치로 파악해준다. MIT 수석 연구원이자 데이터세보 공동설립자 칼리안 베라마차네니는 “소프트웨어 개발자나 데이터 과학자라면 SD메트릭스를 다운로드해서 '콜로케이션시뮬레리티(CorrelationSimilarity)' 같은 지표를 이용해 상관관계를 분석할 수 있다. 현재 30가지 넘는 지표를 제공하며, 앞으로 더 개발할 계획이다”라고 설명했다. 

SD메트릭스는 합성데이터 금고라는 뜻의 ‘SDV(Synthetic Data Vault)’ 프로젝트의 일환으로 개발됐다. SDV 프로젝트는 MIT의 데이터투에이아이 연구소에서 2016년 개발한 기술로, 2020년부터는 데이터세보가 프로젝트 전부를 가져와 관리 및 개발하고 있다. SDV는 합성 데이터를 생성하는데 필요한 다양한 종류의 라이브러리와 기술로 구성됐다. 

베라마차네니는 “자율주행차나 이미지 사용을 많이 분야에서 특히 합성 데이터와 관련한 작업을 많이 하고 있으나, 기업에서 합성 데이터를 보다 편히 쓰도록 도와주는 기술은 거의 없는 상태다. 데이터가 없거나 개인정보 보호 때문에 저장한 데이터를 쓰지 못할 때, SDV에서 패키지를 다운로드하면서 쉽게 합성 데이터를 생성할 수 있다”라고 강조했다.

데이터세보는 코플라스(Copulas), CTGAN, 딥에코(DeepEcho) 같은 다양한 그래픽 모델링 및 딥러닝 기술을 사용하고 있다고 설명한다. SDV 및 SD메트릭스에서는 현재 테이블로 저장된 데이터만 뿐만 아니라 테이블이 여러 개가 있는 형태와 시계열 데이터 형태도 지원된다. 
editor@itworld.co.kr
 
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.