아직 출시 단계는 아니지만, 메이크어비디오 홈페이지에 공개된 데모를 감안할 때 메타가 달성한 것은 3가지다. 첫째, 이 기술은 2개의 관련 이미지(떠다니는 물방울이든, 전속력으로 달리는 말 사진이든)를 촬영하고 중간 프레임을 생성한다. 또한 정지 이미지에 모션을 적용할 수 있는 것으로 보인다. 예를 들어, 정지한 배의 그림을 캡처해 파도를 가로질러 움직이는 GIF를 만드는 것이다.
메이크어비디오는 모든 것을 하나로 묶는다. ‘인물화를 그리는 테디베어’라는 제목의 GIF는 메이크어비디오가 AI 예술을 창조하는 능력뿐 아니라 메타의 연구 논문에서 알 수 있듯이 행동 추론 능력도 있음을 보여준다.
메타는 “메이크어비디오 연구는 텍스트-비디오 간 생성을 실현하기 위해 구축된 텍스트-이미지 간 생성 기술의 최근 발전을 기반으로 한다. 이 시스템은 설명이 포함된 이미지를 사용해 세상이 어떻게 생겼는지, 세상이 어떤 방식으로 자주 묘사되지 학습한다. 레이블이 지정되지 않은 비디오를 통해 세상이 어떻게 움직이는지 학습한다. 이런 데이터로 메이크어비디오는 몇 단어 또는 몇 줄의 문장만으로 기발하고 독특한 영상을 생성해 상상력에 생명을 불어넣을 수 있다”라고 설명했다.
이는 메타가 캡처된 영상에 대한 알고리즘을 훈련하고 있다는 의미일 것이다. 명확하지 않은 부분은 입력 영상 공급 방식이다. 이 주제에 대한 메타의 연구 논문에는 향후에 영상을 어떻게 공급할지에 대한 언급은 없다. 혹자는 캡처한 익명의 영상이 미래 예술의 기반으로 사용될 수 있는지 의문을 제기할 수 있다.
메이크어비디오 시스템은 개념적으로 완전히 새롭지 않다. VQGAN+클립 터보(VQGAN+clip Turbo) 같은 애니메이션도 텍스트 프롬프트를 가져와 애니메이션 비디오로 변환한 것이지만, 메타의 결과물이 훨씬 정교해 보인다. 하지만 대중이 직접 사용할 수 있는 모델이 출시되기 전까지는 장담하기 어렵다.
그럼에도 메타의 메이크어비디오는 AI 예술을 지금까지와는 다른 차원인 영상으로 끌어들였다고 볼 수 있다. 미드저니(Midjourney)와 스테이블 디퓨전(Stable Diffusion)이 PC에서 메이크어비디오와 같은 작업을 수행하려면 얼마나 걸릴까? 지켜봐야 할 일이다.
editor@itworld.co.kr