NLP에 딥러닝을 적용하면서 사람이 쓴 글과 전혀 구분이 불가능한 텍스트를 생성할 수 있는, GPT-3과 같은 방대하고 정교한 범용 언어 모델이 탄생했다. 예를 들어 자연어로 질의를 입력하면 백엔드가 코드를 생성하는(엑셀 구문을 기반으로 하는 파워 Fx 식) 마이크로소프트의 새로운 “노코드” 파워 앱(Power Apps) 플랫폼에 있는 여러 기능의 기반이 바로 GPT-3이다.
NLP는 기업 전반에서 방대한 잠재력을 지녔으며, 구글이나 마이크로소프트 같은 거대 기업만 참여하는 것도 아니다. 여기서는 자체 맞춤형 NLP 솔루션을 구축하기 위한 구성요소로 다양한 AI 기반 솔루션을 제공하는 스타트업 3곳을 소개한다.
익스플로전(Explosion)
NLP 분야에서 일하는 대부분의 개발자는 인기 있는 파이썬용 NLP 파이브러리인 스페이시(spaCy)를 사용하겠지만, 정작 익스플로전에 대해 들어본 사람은 그렇게 많지 않을 것이다. 익스플로전은 매튜 하니발과 아이네스 몬타니가 만든 회사로 스페이시와 상용 주석 툴인 프로디지(Prodigy)의 개발사다.오래 전부터 주요 NLP 툴킷 중 하나인 스페이시가 비슷한 연령대의 다른 라이브러리와 뚜렷하게 구분되는 특징은 방대한 프로덕션 워크로드를 가볍게 처리할 수 있다는 점이다. 스페이시를 오랜만에 다시 접한 사람에게는 놀라울 정도로, 스페이시는 NLP의 최신 기술과 보조를 잘 맞춘다. BERT와 같은 사전 훈련된 트랜스포머(Transformer) 모델을 기반으로 한 파이프라인을 사용하고, 파이토치(PyTorch) 또는 텐서플로우(TensorFlow)의 맞춤형 모델을 통합할 수 있으며 50개 이상의 언어를 기본적으로 지원한다.
스페이시는 오픈소스이지만 익스플로전은 유료 상품인 프로디지도 제공한다. 프로디지의 목표는 데이터 과학자의 툴킷에서 필수 요소가 되는 것이며, 스페이시와의 긴밀한 상호작용 루프뿐만 아니라 이미지, 오디오, 비디오 주석을 위한 포괄적인 지원을 통해 풍부한 표현의 스크립팅 가능한 데이터 집합 주석을 가능하게 해준다. 프로디지에는 분류, 전사, 바운딩 박스 및 기타 다양한 용도의 파이프라인 구축을 위한 레시피가 함께 제공된다. 데이터 과학자는 효율적인 데이터 집합 주석에서 더 적극적인 역할을 할 수 있으며 그 결과 풍부한 입력 데이터를 구축하고 더 나은 모델을 만드는 데 따르는 비용이 줄어든다.
허깅페이스(Huggingface)
텐서플로우 기반 NLP 모델 구현을 제공한 파이토치 라이브러리와 라이트 위드 트랜스포머(Write With Transformer) 웹사이트를 만든 회사에서 NLP의 절대강자인 현재의 허깅페이스(????)가 되기까지, 흥미로운 변천사를 가진 회사다. 허깅페이스의 트랜스포머 라이브러리는 지금 텍스트 처리 분야에서 사실상의 표준이다. 또한 새로운 논문이나 기법이 발견될 경우 이를 몇 주가 아닌 며칠만에 라이브러리에 집어넣을 정도로 움직임이 빠르다.허깅페이스 모델 모음은 온갖 종류의 모델(영역, 언어, 크기 등의 주제 포함)을 위한 모델 허브 이상으로 확장되어 많은 모델의 가속화된 구현을 자랑하는 호스팅되는 추론 API, 그리고 다양한 데이터 집합을 다루는 사용하기 쉬운 API를 구성한다. 또한 수많은 기업이 허깅페이스를 사용한다. 그래멀리(Grammarly) 등에서도 사용되고 마이크로소프트, 구글, 페이스북에서 연구 용도로도 사용된다. 또한 허깅페이스는 머신러닝 생태계에 작은 규모의 다른 여러 라이브러리를 기여한다. 최근에 기여한 라이브러리의 예로, 여러 분산 머신에 걸쳐 대규모 모델 학습의 부담을 대부분 덜어내는 액셀러레이트(Accelerate) 라이브러리가 있다.
허깅페이스는 발전의 속도를 늦추지 않고 있다. 최근 몇 개월 동안 오디오 및 이미지 모델을 플랫폼에 추가했다. 트랜스포머 아키텍처가 무서운 기세로 딥러닝 영역으로 뻗어 나가면서 그 길의 모든 것을 정복하고 있는 만큼, 앞으로 이 분야의 최전선에서 늘 허깅페이스를 보게 될 것이다.
존 스노우 랩스(John Snow Labs)
존 스노우 랩스는 아파치 스파크를 기반으로 하는 오픈소스 NLP 프레임워크인 스파크(Spark) NLP의 관리 주체다. 기업에서 폭발적인 인기를 얻고 있으며, 명명된 개체 인식(NER), 정보 검출, 분류, 감정 분석과 같은 응용 분야의 다양한 NLP 파이프라인에서 기반으로 사용된다. 스페이시와 마찬가지로 NLP의 새로운 패러다임에 맞도록 발전되어 표준으로 사용되며, 방대한 수의 딥러닝 모델(700개 이상)과 다양한 응용 분야를 위한 400개 이상의 파이프라인이 있다. 또한 대다수 경쟁 플랫폼보다 용이한 분산 배포를 위해 아파치 스파크의 확장성을 활용한다.한 가지 흥미로운 부분은 존 스노우 랩스는 3가지 유료 상품으로 스파크 NLP를 구축하는데, 이 중 2개는 의료 분야 전용이라고 할 수 있고 나머지 1개는 의료 분야를 주 영역으로 하면서 다른 영역에서도 사용할 수 있다는 점이다. 존 스노우 랩스는 의료 분석가 및 연구를 위해 쿠버네티스를 기반으로 실행되는 관리형 플랫폼인 헬스케어 AI(Healthcare AI), 그리고 임상 개체 인식 및 연결, 의료 개념 추출, 텍스트 비식별화와 같은 기능을 구현할 수 있는 스파크 NLP를 위한 여러 추가 기능 패키지를 제공한다.
다른 하나의 유료 제품은 동종 최고의 OCR 솔루션을 표방하는 스파크 OCR이다. 지역을 캡처하고 DICOM 형식과 PDF로 출력하는 기능은 의료 영역을 향한 약간의 편중성을 드러내지만, 이미지 처리, 노이즈 제거, 왜곡 제거를 위한 다양한 범용 파이프라인이 있으며 입력 이미지에서 종단간 NER 추출이 가능한, 손쉽게 확장 가능한 파이프라인을 만들기 위해 스파크 NLP와 통합된다.
스파크 NLP 내에는 많은 지식이 내장돼 있으며, 존 스노우 랩스는 의료 영역에서 다른 대형 NLP 라이브러리 제공업체에 비해 우위를 갖고 있는 것으로 보인다. 그런 의미에서 마지막으로 다른 NLP 라이브러리 제공업체에 대해 간단히 살펴보자.
NLP의 다음 단계
NLP 분야에서 향후 몇 개월 동안 어떤 일이 일어날까? 필자가 생각하는 한 가지는 형태는 동일하지만 규모가 커진다는 것이다. 구글, 마이크로소프트, 페이스북과 같은 거대업체에서는 조 단위 매개변수를 가진 모델이 차츰 부각되고 있다. GPT-3은 현재 오픈AI의 API 뒤에 잠겨 있지만 오픈소스 “재창조”도 예상된다. GPT-네오 X에는 올해 안에 1,750억 개의 매개변수 모델이 나와 GPT-3의 강력한 생성 기능을 거의 누구나 이용할 수 있게 된다.마지막으로, 연구원들은 소형 디바이스에서 이러한 아키텍처의 실행 속도와 효율성을 높이고 더 긴 문서를 처리할 수 있도록 하기 위해 노력 중이다. 이러한 모든 연구 결과는 발표되고 불과 몇 주 후에 익스플로전, 허깅페이스, 존 스노우 랩스가 제공하는 상품에도 반영될 것이다. editor@itworld.co.kr
함께 보면 좋은 콘텐츠
Sponsored
Surfshark
“유료 VPN, 분명한 가치 있다” VPN 선택 가이드
ⓒ Surfshark VPN(가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 위험 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 서프샤크 VPN은 구독 요금제 가입 후 7일간의 무료 체험을 제공하고 있다. ⓒ Surfshark 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN ⓒ Surfshark 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.