ChatGPT를 둘러싼 관심과 소란이 계속되는 가운데, 구글이 생성형 AI 영역에서 오픈AI의 위상에 의문을 제기하고 나섰다. 텍스트 설명을 기반으로 모든 장르의 음악을 적절하게 만들 수 있는 MusicLM이 바로 그것이다. 텍스트 설명 외에도 휘파람이나 허밍, 또는 이미지 설명을 기반으로 몇 분 길이의 음악을 만들어낸다.

MusicLM에 관한 연구 논문에서 구글은 살바도르 달리의 ‘기억의 지속’이나 에드바르 뭉크의 ‘절규’를 예제로 제시하며 MusicLM이 이들 그림에 대한 노래를 작곡할 수 있다고 밝혔다.
구글에 따르면, MusicLM은 태그를 하지 않은 대량의 음악 데이터와 뮤직캡스(MusicCaps)의 캡션으로 훈련한 AI 모델을 사용한다. 뮤직캡스는 5,500건 이상의 음악 예제를 보유하고 있는데, 각 예제는 음악과 가사, 그리고 전문 음악가가 작성한 설명이 있다. 또한 유튜브 비디오에서 가져온 10초짜리 사운드 클립을 분류해 취합한 구글 오디오세트(AudioSet)에서 오디오 클립을 매칭한다.
구글은 MusicLM이 오디오 품질이나 텍스트 설명과의 일치성 면에서 기존 AI 음악 생성기를 능가한다고 주장한다. MusicLM 시연 페이지를 통해 수많은 예제를 제공하는데, 이들 예제는 음악이나 심지어 가수의 느낌을 설명하는 “풍부한 설명문”으로 오디오를 생성한 것이다.
한편, MusicLM은 ChatGPT와는 달리 누구나 이용할 수 있는 것은 아니다. 구글은 MusicLM이 저작권이 있는 음악을 생산할 가능성이 있기 때문이라고 밝혔다.
editor@itworld.co.kr