미래기술

"사진을 영상으로…" 메타, AI 기반 GIF 제작 시스템 '메이크어비디오' 시연

Mark Hachman | PCWorld 2022.09.30
지금까지 ‘AI 예술’은 ‘정적 이미지’를 의미했다. 더 이상은 아니다. 메타(구 페이스북)는 AI 예술과 보간 처리(interpolation)를 결합해 짧고 반복되는 GIF 영상을 제작하는 AI 시스템 메이크어비디오(Make-A-Video)를 공개했다. 메타의 결과물을 보면 몇 프레임 이상의 AI 그림이 연결되어 있다는 점에서 기술적으로 영상이지만, 일반적인 GIF에 가깝다.
 
ⓒ Meta

아직 출시 단계는 아니지만, 메이크어비디오 홈페이지에 공개된 데모를 감안할 때 메타가 달성한 것은 3가지다. 첫째, 이 기술은 2개의 관련 이미지(떠다니는 물방울이든, 전속력으로 달리는 말 사진이든)를 촬영하고 중간 프레임을 생성한다. 또한 정지 이미지에 모션을 적용할 수 있는 것으로 보인다. 예를 들어, 정지한 배의 그림을 캡처해 파도를 가로질러 움직이는 GIF를 만드는 것이다. 

메이크어비디오는 모든 것을 하나로 묶는다. ‘인물화를 그리는 테디베어’라는 제목의 GIF는 메이크어비디오가 AI 예술을 창조하는 능력뿐 아니라 메타의 연구 논문에서 알 수 있듯이 행동 추론 능력도 있음을 보여준다.
 
‘인물화를 그리는 테디베어’ ⓒ Meta

메타는 “메이크어비디오 연구는 텍스트-비디오 간 생성을 실현하기 위해 구축된 텍스트-이미지 간 생성 기술의 최근 발전을 기반으로 한다. 이 시스템은 설명이 포함된 이미지를 사용해 세상이 어떻게 생겼는지, 세상이 어떤 방식으로 자주 묘사되지 학습한다. 레이블이 지정되지 않은 비디오를 통해 세상이 어떻게 움직이는지 학습한다. 이런 데이터로 메이크어비디오는 몇 단어 또는 몇 줄의 문장만으로 기발하고 독특한 영상을 생성해 상상력에 생명을 불어넣을 수 있다”라고 설명했다. 
 
'빨간 망토와 슈퍼 히어로 복장을 하고 하늘을 나는 개' ⓒ Meta

이는 메타가 캡처된 영상에 대한 알고리즘을 훈련하고 있다는 의미일 것이다. 명확하지 않은 부분은 입력 영상 공급 방식이다. 이 주제에 대한 메타의 연구 논문에는 향후에 영상을 어떻게 공급할지에 대한 언급은 없다. 혹자는 캡처한 익명의 영상이 미래 예술의 기반으로 사용될 수 있는지 의문을 제기할 수 있다. 
 
메타는 2개의 관련 이미지에서 비디오를 생성할 수 있다고 주장한다. 이 2개의 이미지를 결합한 결과물이 아래의 GIF다. ⓒ Meta
ⓒ Meta

메이크어비디오 시스템은 개념적으로 완전히 새롭지 않다. VQGAN+클립 터보(VQGAN+clip Turbo) 같은 애니메이션도 텍스트 프롬프트를 가져와 애니메이션 비디오로 변환한 것이지만, 메타의 결과물이 훨씬 정교해 보인다. 하지만 대중이 직접 사용할 수 있는 모델이 출시되기 전까지는 장담하기 어렵다. 

그럼에도 메타의 메이크어비디오는 AI 예술을 지금까지와는 다른 차원인 영상으로 끌어들였다고 볼 수 있다. 미드저니(Midjourney)스테이블 디퓨전(Stable Diffusion)이 PC에서 메이크어비디오와 같은 작업을 수행하려면 얼마나 걸릴까? 지켜봐야 할 일이다.
editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.