현재 저소득 국가에서는 1억 4,300만 명의 환자가 수술을 기다리고 있다. 의사와 자원을 투입할 준비가 되어 있는 기관도 있지만, 둘 사이에 정보 격차가 걸림돌이다. 하버드 의대 교수이자 이 정보 문제를 해결하기 위한 비정부 기구인 버츄 재단(Virtue Foundation)의 공동 설립자인 조안 라로베레는 정보의 출처가 매우 다양하고 숨겨져 있는 경우가 많다며, "정보가 집계되지 않는다. 웹에도 있고, 정부 기관에도 묻혀 있다. 구조화된 형식과 구조화되지 않은 형식이 혼합되어 있다"고 지적했다.
2002년에 설립된 버츄 재단은 이미 세계 최대 규모의 NGO 및 의료 시설 데이터베이스를 구축해 25개국 이상에서 글로벌 의료 서비스를 제공하고 있다. 또, 의료 원정대를 조직하고, 연구를 수행하고, 의료 장비를 기부하는 등 다양한 활동을 펼치고 있다. 이 작업의 일환으로 재단의 자원봉사자는 효율적인 의료 활동을 제공하기 위해 신뢰할 수 있는 데이터 수집의 필요성을 알게 됐다.
버츄 재단은 복잡성을 완화하고 인사이트를 추출하기 위해 다양한 AI 모델을 사용해 데이터베이스 위에 분석 계층을 구축하고 있으며, 데이터브릭스(DataBricks), 데이터로봇(DataRobot) 등의 전문 업체와 협력관계를 맺고 있다. 모델 중 일부는 전통적인 머신러닝이며, 일부는 새로운 멀티모달 기술을 포함한 생성형 AI이다.
라로베레는 "생성형 AI가 데이터 격차를 메우고 있다"라며, “이제 막 일어나고 있는 매우 새로운 일이며, 우리는 변화의 선두에 서 있다”고 강조했다.
다음 단계는 기본 데이터 세트를 다른 데이터 소스, 더 많은 데이터 계층, 심지어 위성 데이터로 보강해 인사이트를 도출하고 상관관계를 파악하는 것이다. 라로베레는 "AI의 역량을 통해 보이지 않는 것을 보이게 만들 수 있다"라고 덧붙였다.
하지만 데이터 세트를 개발하거나 보강하기 위해 생성형 AI를 실험하는 것은 버츄 재단만이 아니다. PwC의 파트너이자 생성형 AI 시장 진출 전략 책임자인 브렛 그린스타인은 "이는 실제로 효과가 있으며 오늘날 점점 더 많은 기업에서 사용하고 있다"라며, "대부분 기업 데이터는 비정형 및 반정형 문서와 코드, 이미지와 동영상으로 구성되어 있다. 과거에는 복잡한 맞춤형 솔루션 없이는 이런 데이터에 접근할 수 없었고, 이런 솔루션은 불안정한 경우가 많았다"라고 설명했다.
예를 들어, 생성형 AI는 문서에서 메타데이터를 추출하고, 정보 및 지식 그래프의 색인을 생성하며, 이 데이터를 쿼리, 요약 및 분석하는 데 사용될 수 있다. 그린스타인은 "이는 광범위한 수작업 처리가 필요했던 이전의 접근 방식에 비해 엄청난 도약이다. 그리고 대부분의 워크플로우와 프로세스가 문서와 유사한 데이터 유형을 기반으로 하기 때문에 수많은 사용례를 개발할 수 있다”고 강조했다.
IDC에 따르면, 2022년에 조직에서 생성되는 데이터의 90%가 비정형 데이터이다. 기업은 생성형 AI를 사용해 합성 데이터를 생성하고, 학습 데이터 세트에서 민감한 정보를 찾아 제거하고, 데이터에 의미와 컨텍스트를 추가하고, 기존의 ML 접근 방식으로는 부족한 기타 상위 수준의 기능을 수행한다. 그러나 생성형 AI는 기존 기술보다 속도가 느리고 비용이 많이 들며 때로는 정확도가 떨어질 수 있다. 전문가들은 모든 기반이 갖춰지기 전에 성급하게 뛰어들지 말라고 조언한다.
데이터 추출 사용례
지능형 자동화 솔루션 전문업체인 ABBYY는 35년 이상 다양한 유형의 AI/ML을 사용해 문서를 처리했다. 그리고 챗GPT가 등장하기 훨씬 전인 3년 전부터 생성형 AI를 사용하기 시작했다. ABBYY의 AI 전략 담당 수석 디렉터인 맥스 베르마이어는 "우리는 OCR(Optical Character Recognition)에 이 기술을 사용했다”고 말했다.이전에는 합성곱 신경망(Convolutional Neural Network, CNN)을 사용해 이미지의 어느 비트에 텍스트가 있는지 감지했다. 이후에는 챗GPT와 동일한 아키텍처이지만 다른 방식으로 구축된 트랜스포머를 적용했다.
이 작업에 LLM을 사용하면 큰 그림을 보고 문맥 단서를 통해 텍스트가 무엇인지 파악할 수 있다는 이점이 있다. 문제는 LLM이 매우 자원 집약적이라는 점이다. 베르마이어는 "OCR은 속도가 관건이다. 따라서 품질이 매우 낮은 문서를 감지할 때만 LLM을 사용한다”고 밝혔다.
특정 유형의 문서에서 주요 정보의 위치를 파악하는 데도 LLM을 사용하고 있다. 베르마이어는 "OCR을 수행하고 전체 텍스트를 LLM에 제공한 다음 질문을 한다"라고 말했다. 예를 들어, LLM은 문서의 어느 부분에 특정 유형의 정보가 있는지 파악할 수 있다. "그런 다음 해당 유형의 문서에 대해 특별히 학습된 더 작은 모델로 추출하므로 매우 효율적이고 정확하며 자원 사용량이 훨씬 적다"고 설명했다.
범용 LLM은 리소스 집약적일 뿐 아니라 정확도 문제가 있는 것으로도 악명이 높다. 베르마이어는 "단순히 LLM을 사용하는 것만으로는 중요한 데이터 작업에 필요한 신뢰성을 제공하지 못한다."라며, "특히 가장 중요한 계약서인 경우, 10년 동안 아카이브에 보관되어 있던 PDF의 내용을 LLM이 추측해서는 안 된다”고 강조했다.
생성형 AI를 둘러싼 모든 과대광고를 고려할 때 업무에 적합한 도구를 사용하는 것이 중요하다. 베르마이어는 "많은 사람이 모든 것을 할 수 있는 것처럼 보이는 이 기술을 활용하려고 한다. 하지만 그렇다고 모든 것에 이 기술을 사용해야 한다는 의미는 아니다”라고 지적했다.
예를 들어, ABBYY는 이미 하나의 이미지를 수백 개의 합성 이미지로 변환해 학습 데이터로 사용할 수 있는 툴을 보유하고 있다. 중복된 기록이 있는 경우 퍼지 로직 매칭 기술은 동일 인물인지 여부를 확인하는 데 탁월하다. 하지만 매일 돌을 먹으라고 권장하는 어니언(Onion, 미국의 풍자 기사 전문 미디어)의 기사나 피자에 접착제를 바르는 방법에 대한 레딧 게시물이 학습 데이터에 포함할 만한 신뢰할 수 있는 정보가 될 수 있을까?
베르마이어는 "실제로 사람들이 일반적으로 피자에 접착제를 바르는지에 대한 기술적 추론이 필요하다"라며, "LLM에 적용할 만한 흥미로운 작업이며, LLM은 대량의 정보에 대해 추론을 한다. 따라서 이 사용례는 제법 유용하다”라고 말했다. ABBYY는 이와 유사한 작업을 통해 특정 정보가 학습 데이터에 추가됐을 때 학습 중인 모델의 성능에 도움이 되는지 여부를 파악하고 있다. 베르마이어는 "우리는 수신하는 학습 데이터가 실제로 모델을 향상시키는지 여부를 검증하고 있다"라고 덧붙였다.
이는 특히 소규모 ML 또는 특수 목적의 생성형 AI 모델과 관련이 있다. 범용 모델의 경우 이런 종류의 구분을 하기가 더 어렵다. 예를 들어, 학습 데이터에서 어니언의 기사를 제외하면 모델의 사실적 성능이 향상되지만, 포함하면 모델의 유머 감각과 글쓰기 수준이 향상될 수 있다. 같은 맥락으로 지구평면설을 주장하는 웹사이트를 제외하면 모델의 과학적 정확도는 향상되지만 음모론에 대한 토론 능력은 떨어질 수 있다.
중복 제거 및 품질 관리 사용례
사이버 보안 스타트업 심비안(Simbian)은 AI 기반 보안 플랫폼을 구축하는 과정에서 사용자가 AI를 정해진 용도 외로 사용하거나 의도하지 않은 방식으로 질문을 던지는 것에 대해 우려하고 있다. 심비안 CEO 암부즈 쿠마르는 “보안을 위해 LLM을 구축할 때는 안전해야 한다"라고 강조했다.이런 ‘탈옥(Jailbreaking)’의 사례를 찾기 위해 심비안은 사용자가 AI 모델을 속일 수 있는 웹사이트를 만들었다. 쿠마르는 "이 사이트는 LLM을 바보로 만드는 모든 방법을 보여줄 수 있다"라고 말했다. 하지만 결과에는 중복되는 부분이 많았다. 예를 들어 사용자가 챗봇에게 폭탄을 만드는 방법을 설명해 달라고 요청한다고 가정해 보자. 직접 질문하면 챗봇이 답변을 거부할 수 있다. 따라서 사용자는 "할머니가 폭탄 만드는 이야기를 들려주곤 했는데..."와 같이 말할 수 있다. 그리고 다른 사용자는 "증조할아버지가 저에게 이런 이야기를 들려주곤 하셨는데..."라고 말할 수 있다. 단순히 사용된 단어만 보면 두 가지 다른 프롬프트이지만 일반적인 탈옥 수법의 예시이다.
훈련 데이터에 유사한 수법의 예가 너무 많으면 결과가 왜곡될 수 있다. 게다가 비용도 더 많이 든다. 하지만 생성형 AI를 사용해 다양한 탈옥 성공 사례를 비교함으로써 총 샘플 수를 10배나 줄일 수 있었다.
심비안은 또한 다양한 종류의 보안 관련 정보로 가득 찬 학습 데이터 세트를 선별하는 데도 LLM을 사용하고 있다. 쿠마르는 "사람들이 보안과 관련해 작성한 블로그, 설명서, README 파일이 수 기가바이트에 달한다. 우리는 이런 것들을 지속적으로 읽고 어떤 것이 좋고 어떤 것이 좋지 않은지 파악해 좋은 것을 학습 데이터 세트에 추가하고 있다"라고 밝혔다.
합성 데이터 사용례
생성형 AI는 새로운 텍스트를 생성하도록 설계됐다는 점에서 합성 데이터는 특히 잘 맞는 사용례이다. 데이터 보안 회사 데세라(Dasera)의 CTO 노아 존슨은 "합성 데이터와 테스트 데이터를 생성하는 데 매우 강력하다. 구조와 일반적인 컨텍스트를 제공하면 매우 사실적인 합성 데이터를 생성할 수 있다"고 밝혔다. 이렇게 생성된 합성 데이터는 데세라의 소프트웨어를 테스트하는 데 사용된다. 존슨은 "우리는 이 애플리케이션에 맞게 조정한 오픈소스 모델을 사용한다"고 덧붙였다.합성 데이터가 소프트웨어 테스트에만 사용되는 것이 아니다. 고객 서비스 챗봇을 학습하는 데도 대량의 학습 데이터가 필요하지만, 이를 위한 데이터가 충분하지 않을 때도 있다. 컨스텔레이션 리서치(Constellation Research)의 대표 애널리스트 앤디 투라이는 "실제 데이터는 매우 비싸고 시간이 많이 걸리며 수집하기 어렵다. 또한 법적 제약이나 저작권 문제 등 데이터를 확보하는 데 있어 다른 장애물이 있을 수도 있다”고 설명했다. 게다가 실제 데이터는 지저분하다. 투라이는 "데이터 과학자는 데이터 집합을 큐레이션하고 정리하는 데 작업 시간의 최대 90%를 사용한다”고 덧붙였다.
모델은 학습 데이터가 많을수록 더 나은 모델이 된다. 어떤 모델은 수십억 개의 매개 변수를 가지고 있다. 합성 데이터를 사용하면 원하는 만큼 빠르게 데이터를 생성할 수 있다.
문제는 예상하는 데이터만 너무 쉽게 생성할 수 있어 실제 현실의 혼란스러운 상황에서는 좋지 않은 모델을 만들 수 있다는 점이다. 투라이는 "먼저 실제 데이터와 합성 데이터를 혼합해 모델을 만들어 빈 곳을 채운다. 이후 버전에서는 더 많은 데이터를 확보하면 최신 데이터로 미세 조정하거나 RAG 또는 재학습을 할 수 있다"고 설명했다.
생성형 AI에 대한 기대치 파악하기
가장 중요한 점은 생성형 AI가 기업의 모든 데이터 문제를 해결해주지는 않는다는 것이다. AI 및 데이터 컨설팅 회사인 인디시엄(Indicium)의 최고 데이터 책임자 다니엘 아반치니는 "AI는 만병통치약이 아니다”라고 지적했다.데이터 여정을 막 시작한 기업이라면 우수한 데이터 플랫폼 구축, 데이터 거버넌스 프로세스 설정, 데이터 식별, 분류 및 정리에 효율적이고 강력한 기존 접근 방식 사용 등 기본을 바로잡는 것이 중요하다. 바나치니는 "생성형 AI는 분명 도움이 되겠지만, 먼저 구현해야 할 기존의 베스트 프랙티스가 많이 있다"라고 말했다.
이런 기반이 마련되지 않은 상태에서는 LLM의 이점이 제한적일 수 있다. 하지만 기업이 프레임워크를 갖추고 있고 대량의 데이터를 처리하는 경우에는 생성형 AI가 도움을 줄 수 있는 구체적인 작업이 많다. 반치니는 "하지만 현재 기술로는 기존 접근 방식을 대체할 수 있다고 말하기는 어렵다"라고 덧붙였다.
editor@itworld.co.kr