생성형 AI 시대에 이르러 LLM(Large Language Model)은 다양한 산업에 걸쳐 정보를 처리하고 질문에 대한 답을 찾는 방식에 혁명을 일으키고 있다. 그러나 이런 모델에는 정확하지 않은 콘텐츠 생성(환각), 오래된 지식에 의존, 추적할 수 없는 불투명하고 복잡한 추론 경로 사용과 같은 문제점도 따른다.
이런 문제에 대처하고자 LLM의 고유한 역량에 끊임없이 업데이트되는 풍부한 콘텐츠를 결합하는 혁신적인 접근 방법인 RAG가 등장했다. LLM과 RAG의 조합은 정확하고 신뢰할 수 있는 응답을 제공하는 모델의 역량을 강화할 뿐 아니라, 지식 요구가 특히 많은 작업에서 일관적인 설명과 책임성, 적응성을 향상한다. RAG의 적응성은 가져오는 정보를 지속적으로 갱신할 수 있게 해주므로 응답이 최신 정보를 반영하고 도메인별 인사이트를 통합하도록 보장할 수 있다. 이는 LLM의 가장 중요한 한계를 직접적으로 해결하는 방법이다.
예를 들어 RAG는 코드 생성, 고객 서비스, 제품 설명서, 엔지니어링 지원, 내부 지식 관리 등 기업 전반의 비즈니스 부문과 사용례에 걸쳐 생성형 AI 적용을 더욱 강화한다. RAG는 기업이 필요한 부분에 LLM을 적용하는 데 있어 큰 과제 중 하나, 즉 LLM을 학습시키거나 미세 조정할 필요 없이 방대한 기업 데이터베이스에서 가져온 관련성 있고 정확한 지식을 모델에 제공해야 한다는 문제를 해결한다. RAG는 도메인별 데이터를 통합함으로써 생성형 AI 모델의 응답이 충분한 정보에 근거할 뿐만 아니라 당면한 맥락에 정확히 맞도록 보장한다. 또한 RAG는 기업이 기밀 또는 비밀 데이터에 대한 통제력을 유지하고, 궁극적으로는 적응 및 통제 가능하고 투명한 생성형 AI 애플리케이션을 개발할 수 있도록 돕는다.
이는 AI로 향상되는 세계를 추구하는 어플라이드AI 이니셔티브(appliedAI Initiative)의 목표에도 부합한다. 어플라이드AI 이니셔티브는 생성형 AI를 단순히 시장에 밀어 넣는 것이 아니라 건설적인 툴로 활용해야 한다는 점을 지속적으로 강조한다. 실질적인 가치 창출에 초점을 둔 RAG는 이 정신에 반영돼 향상된 정확성과 신뢰성, 제어 가능성, 근거로 뒷받침되는 정보, 그리고 사용자가 정보에 근거하고 혁신적인 방식으로 생성형 AI의 모든 잠재력을 포용하도록 독려하는 포괄적인 생성형 AI 적용을 보장한다.
RAG 옵션 : 맞춤 구성과 편의성 사이의 선택
RAG를 추진하는 기업은 직접 제작 혹은 구매 사이에서 중요한 결정에 직면하게 된다. 즉시 사용 가능한 제품의 편의성과 맞춤형 솔루션이 갖춘 유연성 간의 선택이다. RAG 시장에는 오픈AI 날리지 리트리벌 어시스턴트(Knowledge Retrieval Assistant), 애저 AI 서치(AI Search), 구글 버텍스 AI 서치(Vertex AI Search), 아마존 베드록용 날리지 베이스(Knowledge Bases for Amazon Bedrock)와 같은 유력한 주자들이 이미 포진해서 엔드 투 엔드 서비스에 내장된, 바로 사용할 수 있는 기능의 편리함을 앞세워 광범위한 요구사항에 대응하고 있다. 그 외에 엔비디아 네모 리트리버(NeMo Retriever), 딥셋 클라우드(Deepset Cloud)는 중간 지대로, 강력하고 풍부한 기능을 제공하면서 맞춤 구성도 가능하다. 또는 처음부터 새로 솔루션을 만들거나 랭체인(LangChain), 라마인덱스(LlamaIndex), 헤이스택(Haystack)과 같은 기존 오픈소스 프레임워크를 개조하는 방법도 선택할 수 있다. 노동은 더 많이 들지만 특정 요구사항에 맞춰 더 세밀하게 조정된 제품을 얻는 방법이다. 편의성과 맞춤 구성 가능성 간의 선택은 이후 큰 영향을 미친다. 직접 만들든 기성품을 구매하든 타협해야 할 부분은 있다. 생성형 AI에는 환각 또는 허위 사실과 같은 위험을 유발하는 본질적인 속성이 있는 만큼 투명성과 제어 가능성이라는 2가지 측면에 대한 부가적인 고려가 필요하다.
사전 구축된 솔루션과 제품이 가진 매력은 배포 속도를 높이고 기술적 복잡성을 줄일 수 있는 플러그 앤 플레이 방식의 간편함이다. 따라서 RAG 영역으로 빠르게 진입하고자 하는 기업에 매력적이다. 그러나 획일화된 제품은 예를 들어 커뮤니티에 특화된 배경지식, 관습, 맥락에 따른 기대 사항, 검색 결과의 품질을 판단하는 데 사용되는 표준 등 개별 도메인이나 회사에 내재된 미묘한 복잡성에 제대로 대응하지 못하는 경우가 많다.
오픈소스 프레임워크의 특징은 독보적인 유연성이다. 이 유연성을 통해 개발자는 자유롭게 회사 내부 지식 그래프 온톨로지 검색기와 같은 고급 기능을 활용하고, 툴을 조정해서 성능을 최적화하거나 투명성과 설명 가능성을 보장하고, 특수한 비즈니스 목표에 시스템을 맞출 수 있다.
따라서 편의성과 맞춤 구성 가능성 간의 선택은 단순한 선호도의 문제가 아니라 기업 RAG 역량의 방향을 좌우할 수 있는 전략적인 결정이다.
RAG 장애물 : RAG 산업화 여정의 과제
RAG 솔루션 산업화 여정에는 RAG 파이프라인을 따라 여러 중대한 과제가 따른다. 실제 시나리오에서 효과적으로 배포하기 위해서는 이런 과제를 해결해야 한다. 기본적으로 RAG 파이프라인은 검색 전, 검색, 증강 및 생성, 평가의 표준 4단계로 구성된다. 각 단계마다 과제에 따라 특정 설계 결정과 구성요소, 구성이 필요하다. 최적의 청킹 크기와 전략을 처음부터 결정하는 것은 쉽지 않은 일이다. 특히 이런 의사 결정에 참고할 초기 평가 데이터 집합이 없는 콜드 스타트 문제에 직면한 경우에는 더욱 어렵다. RAG가 효과적으로 기능하기 위한 기본적인 요건은 문서 임베딩의 품질이다. 시작부터 이런 임베딩의 견고성을 보장하는 것이 매우 중요하지만, 이 부분이 큰 장애물이 될 수도 있다. 소스 문서 내에서 노이즈와 모순을 감지해 완화하는 것과 마찬가지다. 맥락상 관련된 문서를 최적으로 소싱하는 것 역시 풀어야 할 또 다른 어려운 매듭이다. 특히 어설픈 벡터 검색 알고리즘이 원하는 컨텍스트를 제공하지 못하고, 복잡하거나 까다로운 쿼리를 위해 다면적인 검색이 필요한 경우 이 문제가 두드러진다.
검색된 데이터에서 정확하고 신뢰할 수 있는 응답을 생성하는 과정에서도 부가적인 복잡성이 발생한다. 첫째, RAG 시스템은 다양한 질문에 직면하는 만큼 적절한 수의 관련 문서(top-K)를 동적으로 결정해야 한다. 이 문제에는 보편적인 해결책이 존재하지 않는다. 둘째, 생성된 답변이 그 답변의 소스 정보에 여전히 충실하게 근거하고 있는지 확인하는 것이 출력의 무결성과 유용성을 유지하는 데 있어 무엇보다 중요하다.
마지막으로 RAG 시스템의 정교함에도 불구하고 남아있는 오류와 편향성이 응답에 침투할 가능성은 여전히 중요한 우려 사항이다. 편향성을 해결하기 위해서는 알고리즘의 설계와 기반 데이터 집합의 선별에서 모두 신중을 기해 시스템 응답에서 이 같은 문제가 지속되지 않도록 해야 한다.
RAG의 미래 : RAG로 강화되는 지능형 에이전트로 가는 길
최근 학계와 업계에서 모두 RAG 시스템을 강화하기 위한 노력이 활기를 띠면서 그 결과로 이른바 고급 또는 모듈형 RAG가 등장했다. 이런 진보된 시스템에는 효과를 증폭하기 위한 다양한 정교한 기술이 통합된다. 주목할 만한 발전은 날짜 또는 챕터 요약과 같은 부수적인 정보를 텍스트 청크 내에 인코딩하는 메타데이터 필터링 및 스코핑(scoping)의 통합이다. 이는 방대한 문서 뭉치를 탐색하는 리트리버의 역량을 개선할 뿐 아니라 메타데이터에 대한 일치(congruity) 평가를 강화해서 매칭 프로세스를 최적화한다. 또한 고급 RAG 구현은 하이브리드 검색 패러다임을 수용해서 키워드, 시맨틱, 벡터 기반 검색 중에서 동적으로 선택해 사용자 질의의 속성과 가용 데이터의 특징에 맞춰 조정한다. 쿼리 처리 영역에서 중요한 혁신은 쿼리 라우터다. 쿼리 라우터는 가장 적절한 다운스트림 작업을 식별하고 정보를 소싱할 최적의 리포지토리를 지정한다. 쿼리 엔지니어링 측면에서는 사용자 입력과 문서 내용 간의 연관성을 더 강화하기 위해 다양한 기법이 사용되며, 때때로 LLM을 활용해서 문서 매칭 정확성을 높이는 보충 컨텍스트, 인용, 비평 또는 가상의 답변을 작성하기도 한다. 이런 시스템은 LLM이 참조할 최적의 시점과 콘텐츠를 선제적으로 정확히 찾아서 정보 검색 단계에서 관련성과 적시성을 보장하는 적응형 검색 전략으로 발전했다.
또한 생각의 사슬 또는 생각의 나무 기법과 같은 정교한 추론 방법도 RAG 프레임워크에 통합됐다. 생각의 사슬(chain of thought, CoT)은 일련의 중간 단계 또는 추론을 생성하는 방법으로 사고 프로세스를 시뮬레이션하고, 생각의 나무(tree of thought, ToT)는 아이디어의 줄기 구조를 구축하고 다양한 옵션을 평가해 신중하고 정확한 결론에 이른다. 검색 증강 사고(retrieval-augmented thoughts, RAT)와 같은 최첨단 접근 방식은 RAG와 CoT의 개념을 결합해서 관련 정보를 검색하고 논리적으로 추론하는 시스템 역량을 강화한다. RAG-증강 추론(RAG-augmented reasoning, RAGAR)은 여기서 더 발전된 단계로, 최신 외부 웹 리소스에 대한 일련의 자체 검증 단계와 함께 CoT와 ToT를 통합한다. 또한 RAGAR은 멀티모달 입력을 처리하기 위한 기능을 확장해서 시각 정보와 텍스트 정보를 동시에 처리한다. 이를 통해 RAG 시스템은 정보 검색과 합성을 위한 높은 신뢰성을 갖춘 프레임워크가 된다.
RAT, RAGAR과 같은 발전이 이뤄지고 고급 정보 검색 기법과 정교한 LLM이 제공하는 심층 추론이 더 조화를 이루면서 차세대 엔터프라이즈 인텔리전스 솔루션의 주춧돌로 RAG의 위상이 더욱 공고해지고 있다. 정제된 정보 검색의 정확성과 사실성은 LLM의 분석, 추론, 그리고 에이전트 역량과 결합되어 의사 결정부터 전략적 계획 수립에 이르기까지 복잡한 엔터프라이즈 애플리케이션에 맞춤화된 지능형 에이전트 시대가 도래할 것임을 예고한다. RAG로 강화되는 이런 에이전트는 전략적 엔터프라이즈 컨텍스트의 까다로운 요구사항에 대처할 수 있는 역량을 갖추게 될 것이다.
*Paul Yu-Chun Chang은 어플라이드AI 이니셔티브 GmbH의 파운데이션 모델 부문 선임 AI 전문가다. Bernhard Pflugfelder는 어플라이드AI 이니셔티브 GmbH의 혁신 연구소(생성형 AI) 소장이다.
editor@itworld.co.kr