뛰어난 인공지능(AI)을 만들려면 뛰어난 데이터가 뒷받침되어야 한다. 사람도 어떤 지식을 쌓기 위해 책과 참고서를 살펴보듯이, AI도 그 성능을 높이려면 학습용 데이터가 필요한 것이다. 그런 의미에서 AI를 위한 참고서, 즉 AI가 이해하는 방식과 수준으로 가공한 데이터를 ‘AI 학습용 데이터’라고 부른다. 인공지능 시장이 커지면서 이제 AI 학습용 데이터 생태계 규모도 커지고 있으며, 국내 시장에만 700개 이상 업체가 AI 학습 데이터 플랫폼을 운영하고 있다. 각 기업의 운영 전략도 각양각색이다. 자동화 기술을 활용해 데이터 라벨링의 생산성을 높이는 곳도 있고, 합성 데이터로 부족한 데이터를 채워주는 업체도 있다. 익명 및 가명 데이터의 라벨링 기술도 점점 고도화되고 있다. 국내외 AI 학습용 데이터 시장의 현재 모습은 어떠한지 확인해보자.
주요 내용
- 인공지능 개발의 첫 단추, 데이터 라벨링
- 데이터 라벨링 시장에 부는 자동화 바람
- ‘데이터 부자’ 페이스북도 인수한 ‘합성 데이터’ 스타트업
- 가짜 데이터라서 더 쓸모가 있다는 합성 데이터
- 익명 및 가명 데이터의 진화