AIㆍML

“생성형 AI의 현주소” 주요 생성형 AI 서비스 둘러보기

Heinrich Vaske | COMPUTERWOCHE 2023.02.22

미드저니(Midjourney) : 텍스트를 고품질 이미지로

아직은 베타 단계에 있는 미드저니도 텍스트 설명으로 이미지를 생성하는데, 종종 고품질의 사실적인 작품을 만들어 낸다. 몇 가지 전제조건이 있는데, 미드저니를 이용하려면 무료 커뮤니케이션 및 채팅 앱인 디스코드를 설치해야 한다. 또 생성된 이미지는 원칙적으로 다른 사용자가 리믹스할 수 있다. 배타적인 권리가 필요하다면, 유료 서비스를 이용해야 한다.

미드저니는 이미 여러 곳에서 그래픽 아티스트와 디자이너의 작업을 보완하거나 대체하는 데 사용되고 있다. 모든 생성형 AI의 활용 방안이 그렇듯이, 프롬프트가 결과물의 품질을 좌우한다. 프롬프트가 정확할수록 더 나은 결과를 얻을 수 있는데, 미드저니는 자사 웹 사이트에서 텍스트 프롬프트를 포함해 최고의 창작물을 전시하고 있다.
 

노션 AI(Notion AI) : 지능형 협업

많은 사용자가 워크스페이스 플랫폼 노션으로 프로젝트와 작업을 구성한다. 여기서 문서를 만들고, 데이터베이스를 관리하고, 프로젝트 성과를 추적하고, 다른 사람들과 협업할 수 있다. 노션 AI는 노션 플랫폼에 문서 작성, 편집, 브레인스토밍 및 요약을 도와주는 지능형 도우미를 제공한다. ChatGPT와 마찬가지로 노션 AI는 주제의 초안을 작성하고 특정 측면에 대한 아이디어 목록을 제공하며, 텍스트의 표현 및 문법을 확인하고 긴 텍스트를 번역 및 요약한다.
 

 

픽토리(Pictory) : 비디오 편집을 위한 만능 툴

AI 기반 영상 편집 툴 픽토리는 원치 않는 시퀀스나 컷을 잘라내는 등 비디오의 빠른 후처리에 유용하다. 버튼 하나 누르는 것으로 긴 비디오에서 하이라이트를 선택해 짧은 예고편은 만들 수 있으며, 릴패스트(Reelfast) 기술을 이용해 스크립트나 블로그 게시물도 비디오로 변환할 수 있다. 텍스트를 자동으로 비디오에 표시할 수 있으며, 필요한 경우 번역도 가능하다. 무엇보다도 픽토리는 사용자가 이 모든 작업을 특별한 기술 지식 없이 처리할 수 있도록 해준다.
 

 

Rewind.ai : 맥에서만 가능한 되감기 기능

리와인드(Rewind)는 “인생의 검색 엔진”이라고 광고하지만, 애플 맥에서만 사용할 수 있다는 제약이 있다. 사용자가 컴퓨터에서 수행하는 모든 작업은 맥 또는 외장 하드 드라이브에 기록되는데, 시청한 비디오부터 방문한 웹 사이트, 사용자를 위해 특별히 제작된 콘텐츠 등 모든 것을 타임라인에서 추적할 수 있다. 예를 들어 사용자는 3주 전 특정 시간에 무엇을 했는지 언제든지 확인할 수 있다.

리와인드는 기본 MacAPI 및 OCR을 사용해 화면의 내용을 분석하며, 줌이나 팀즈 회의도 필요에 따라 보존한다. 이를 위해 리와인드는 강력한 AI 기반 압축 기술을 사용하는데, 기록된 데이터는 최대 3,750배로 압축된다. 이런 방식으로 평범한 하드 드라이브에 몇 년치 컴퓨터 기록을 저장할 수 있다.
 

 

런웨이(Runway) : 손쉬운 동영상 조작

런웨이를 이용해 보면, 딥페이크에 대한 우려가 과장이 아니라는 것을 이해하게 된다. 런웨이는 다양한 AI 솔루션을 제공하는데, 지금은 비디오 편집을 위한 차세대 툴로 주목을 받고 있다. 런웨이를 사용하면 렌더링된 요소를 자신의 이미지로 교체하거나 조작해 기존 비디오를 전혀 다른 비디오로 만들 수 있다.

런웨이는 조만간 새로운 생성형 AI 모델인 젠1(Gen-1)을 출시할 계획인데, 새 모델은 확산 모델을 활용해 비디오 합성을 더 높은 수준으로 개선하는 것이 목표이다. 사용자는 서로 다른 여러 모드를 이용해 취향에 따라 비디오를 조작할 수 있다.
 

 

스테이블 디퓨전(Stable Diffusion) : PC에서 이용하는 텍스트 투 이미지

스테이블 디퓨전은 딥러닝 기반의 텍스트 투 이미지 생성기이다. 달리나 미드저니와 마찬가지로 텍스트설명을 기반으로 이미지를 생성한다. 하지만 달리나 미드저니가 클라우드를 통해서만 액세스할 수 있는 것과 달리, 스테이블 디퓨전은 코드와 무료로 사용할 수 있는 모델을 사용자의 하드웨어에서 직접 실행할 수 있다. 그래픽 메모리가 8GB 이상인 GPU만 있으면 된다. 무엇보다도 스테이블 디퓨전은 훨씬 저렴하고 학습용으로 유명인의 이미지나 노골적인 콘텐츠를 더 자유롭게 활용할 수 있다. 이미지 해상도도 1024x1024픽셀로 달리보다 더 높다.
 

신세시아(Synthesia) : 전문가를 위한 빠른 비디오 제작

예를 들어 무언가를 설명하기 위해 간단한 비디오를 빠르게 만들고 싶다면, 신세시아 웹사이트에서 유료아바타 중 하나를 선택하고 원하는 텍스트를 입력하면 아바타가 설명을 시작한다. 연 1,000달러를 내면 자신의 얼굴로 만든 개인화된 아바타를 이용할 수 있는데, 이 아바타 역시 10~15분 정도면 만들고 훈련할 수 있다.

신세시아는 셔터스톡(Shutterstock)의 이미지와 그래픽, 배경 음악, MP4 비디오까지 통합할 수 있어 비디오 형식의 프레젠테이션에 안성맞춤이다. 다국어 사용도 지원하며, 라이선스 비용은 1인당 월 26달러부터 시작한다.
 

 

토움(Tome) : 버튼 하나로 만드는 프리젠테이션 

지친 상태에서 프레젠테이션을 만들어야 한다면, 토움에게 일을 맡겨보자. 템플릿을 선택하고 가능한 한 정확하게 프롬프트를 입력하면, 마치 마법처럼 프리젠테이션이 화면에 나타납니다(현재는 영어만 지원). 이 툴은 오픈AI의 ChatGPT를 사용해 텍스트를 생성하고 달리를 사용해 이미지를 생성한다. 제작 후에 사용자가 편집 툴을 이용해 프리젠테이션을 맞춤형으로 수정할 수 있다. 어쨌든 Tome.ai는 기본 프리젠테이션을 디자인할 수 있으며, 사용자는 작업 시간을 아낄 수 있다.
 

 

발리(VALL-E) : 3초 만에 음성 복제

마이크로소프트의 AI 모델 발리는 오픈AI의 달리에서 따온 이름이 틀림없지만, 이미지 대신 목소리를 흉내 낸다. 특히 발리는 학습 템플릿으로 단 몇 초의 음성 샘플만 있으면 된다. 이 도구는 약 6만 시간의 영어 언어 데이터로 학습했으며, 화자의 어조와 감정도 흉내 낼 수 있다. 발리는 아직 일반에 공개되지 않았다. 초기 보고서에 따르면, 결과의 품질은 교육 데이터의 범위에 따라 달라진다. 
editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.