AIㆍML

인공지능 챗봇 ‘심심이’, 20년 동안 구축한 대규모 AI 데이터 공개..."인간 중심의 AI 발전에 기여"

편집부 | ITWorld 2022.08.31
인공지능(AI) 챗봇 ‘심심이’가 인간 중심의 대규모 AI 데이터(Human-Centered AI Data)를 전격 공개한다고 밝혔다. 지난 8월 초거대 데이터 공개 이후 국내 AI 연구 및 발전을 위해 연이어 데이터 공개를 진행하고 있다.
 
ⓒ 심심이

심심이에 따르면 인간 중심 AI란 지난 2019년 주요 20개국(G20) 무역과 디지털경제 분야 장관 회의 선언문 등에 등장하며 공식적으로 주목 받기 시작한 개념이다. 특히, 미국 스탠포드 대학의 인간중심 AI 연구소(Institution of Human Centered AI, HAI)가 발행하는 ‘AI 인덱스’의 올해 보고서에서 ‘AI의 산업화 및 윤리적 문제 증가’라는 주제로 AI 윤리 및 데이터 중요성을 강조하며 관심이 커지고 있는 추세다. 우리나라에서는 정부 차원의 AI 윤리 기준을 마련할 때 중요한 토대로 여겨지고 있다.

심심이는 AI 연구 활성화를 위해 지난 8월 약 150억 건의 대화 데이터 공개한 바 있다. 이후 학계는 물론 산업계 등 다양한 분야에서 초거대 데이터에 대해 수요가 높다는 것을 알 수 있었다고 업체 측은 설명했다. 특히 여러 데이터 중 인간 중심 AI 데이터에 대한 수요가 매우 높아지고 있음을 확인했다. 이에 심심이는 지난 20년 동안 구축한 인간 중심 AI 데이터를 학계에 공개하기로 결정했다.
 
ⓒ 심심이

이번에 심심이가 공개하기로 한 인간 중심 AI 데이터는 총 4가지 ▲신고삭제대화 시나리오 ▲보편대화 시나리오 ▲보편대화탈락 시나리오 ▲윤리검수문장 데이터이다.  

신고삭제대화 시나리오는 일반 사용자들이 심심이와 대화를 나누다가 콘텐츠 규정에 위반된다고 생각하는 대답을 신고할 수 있는데, 이때 세부 신고 사유 라벨이 부착됨과 동시에 다른 메타 정보와 함께 구축된 데이터이다.

보편대화 시나리오는 심심이의 생동감, 위트 등을 살리는 것은 물론 음성 애플리케이션에서 누구나 범용적으로 사용할 수 있는 문장을 선별, 가공해 구축한 데이터셋이다. 모든 데이터 구축 과정에는 국어 및 언어 전공자 중심의 팀이 투입됐다. 보편대화탈락 시나리오는 보편대화 시나리오 정제 과정에서 TTS에 적합하지 않아 탈락된 데이터를 의미한다.

윤리검수문장 데이터는 일반 사용자들이 맹검 도구 내에서 콘텐츠 규정 위반 여부를 검수해 점수를 부착해 둔 데이터셋이다. 이 데이터는 각각의 문장을 임의의 10인 이상 패널이 검수하여 심심이의 딥러닝 기반 나쁜말 판별기(DBSC) 성능을 확보하는데 결정적인 역할을 수행하기도 했다.

심심이 관계자는 “이번 데이터 공개 방식은 지난 8월 초거대 데이터 공개와 유사한 절차에 따라서 연구자 또는 연구팀 개별 신청을 접수 받은 뒤 심사, 비밀 유지 서약 등 관련 절차를 마친 다음 요구사항에 따라 제공 및 관리하는 방식을 활용한다”며 “심심이 대화 데이터를 제공받고자 하는 연구자라면 심심이 한국어 공식 블로그에서 신청서를 내려받아 작성한 다음 제출, 승인 후 소정의 절차를 거쳐 이용할 수 있다”고 말했다.
editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.