AIㆍML / 애플리케이션

“객체 추적부터 트랙 분할까지” 알아두면 쓸모 있고 유용한 무료 ‘AI 도구’ 9선

David Wolski | PCWorld 2023.09.20
인공지능 프레임워크나 라이브러리가 아닌, 개인 PC에서 직접 쓸 수 있는 실질적이고 유용한 인공지능 애플리케이션을 소개한다. 
 
ⓒFinal 2x
 

파이널 2x(Final 2x) – 이미지 크기 확대

비트맵 그래픽의 크기를 단순히 픽셀만 확대하는 방식으로 늘리면 화질이 크게 떨어진다. 파이널 2x를 사용하면 비트맵을 확대해도 화질이 떨어지지 않는다. 파이널 2x는 AI를 활용해 이미지 크기를 조정하는 4가지 방법(리얼 쿠간(Real Cugan), 리얼 에스간(Real Esrgan), 와이푸 2x(Waifu 2x), SRMD)을 제공한다. 아울러 픽셀화 JPG 형식 사진의 오염(노이즈)과 강한 잔상(아티팩트)도 완화할 수 있다.
 
Final 2x는 모든 CPU 및 GPU에서 실행된다. 위의 픽셀화된 그래픽(왼쪽)은 Waifu 2x 알고리즘을 통해 원래 크기(오른쪽)의 4배로 확대됐다. ⓒIDG

설치 방법 : 파이널 2x를 첫 번째로 소개하는 이유는 윈도우에서 매우 쉽게 설치할 수 있기 때문이다. 파이널 2x에 사용되는 신경망과 알고리즘은 엔비디아, AMD, 인텔 칩에서 실행되므로 특별한 하드웨어 요건이 없다. 통합 GPU로도 충분하다. 단, 모든 AI 및 신경망 도구와 마찬가지로 RAM이 많으면 좋다. 윈도우에서는 파이널 2x 개발자의 깃허브 페이지에 있는 프로그램으로 간편하게 설치할 수 있다. 

작동 방식 : 파이널 2x를 열면 확대할 JPG 또는 PNG 형식의 이미지 파일을 입력하는 필드가 나타난다(드래그 앤드 드롭으로 입력). 왼쪽 하단의 톱니바퀴 기호를 클릭하면 설정 페이지가 열린다. 연산에 사용할 수 있는 CPU/GPU가 여러 개라면 ‘기기’ 항목에서 선택할 수 있다. ‘모델’은 이미지 품질을 결정한다. 알고리즘 중 ‘리얼 에스간’은 사진에 적합하고, ‘와이푸 2x’는 그림에 특화돼 있다. 확대 비율은 ‘사용자 정의 확대 비율’ 필드에서 결정된다. 또 오염을 잘 제거하려면 ‘TTA’ 옵션을 활성화하는 것이 좋다. 기본 창에서 ‘시작’을 클릭하면 작업이 진행된다. 복잡한 이미지는 몇 분 정도 걸릴 수 있다. 
 

메시룸(Meshroom) – 스마트폰용 3D 스캐너

3D 스캐너는 레이저로 실제 객체를 스캔한 후, (해당 데이터를 통해) CAD 및 애니메이션 프로그램에서 활용할 수 있는 파일을 생성한다. 매우 복잡하게 들리지만, 평범한 스마트폰이나 디지털카메라 그리고 무료 소프트웨어 메시룸으로도 가능하다(작은 규모 한정). 메시룸은 개발사 앨리스비전(Alicevision)의 사진 측량 라이브러리를 기반으로 하며, 오픈소스 라이선스 및 윈도우(64비트)용으로 제공된다. 일련의 이미지를 분석해 촬영된 객체의 형태를 계산한 후 격자 파일을 생성한다.
 
메시룸은 실제 객체의 사진에서 3D 그리드를 만든다. ⓒIDG

설치 방법 : 연산에 쿠다(Cuda) 인터페이스가 필요하기 때문에 메시룸을 사용하려면 최소 쿠다 2.0을 지원하는 엔비디아 그래픽 카드가 필요하다. 엔비디아에서 나온 마이크로소프트 윈도우용 쿠다 드라이버는 다운로드 크기가 3GB다. 엔비디아 하드웨어가 준비돼 있다면 메시룸(1.3GB)을 설치할 수 있다. AMD 그래픽 카드와 인텔 칩을 사용한다면 메시룸이 상대적으로 덜 정밀한 스케치 모드로만 작동한다. 연산에 걸리는 시간을 참고 기다릴 수 있는 사람이라면 쿠다가 필요 없는 대체 버전의 메시룸을 테스트해 볼 수도 있다.

작동 방식 : 스캔할 객체를 촬영할 때는 빈 공간에서 다른 객체와 최대한 거리를 두는 것이 중요하다. 또 다양한 각도에서 피사계 심도가 높고, 흐릿함 없는 사진이 수십 장 필요하다. 아울러 크기가 10메가픽셀이 넘는 이미지는 사용하지 않는 것이 좋다. 그다음 파일을 메시룸 왼쪽의 ‘이미지’ 영역으로 드래그하면 작업이 시작된다. 이 작업은 엔비디아 카드에서도 몇 시간이 걸린다. 메시를 더 최적화하려면 3D 소프트웨어(예 : 블렌더(Blender))를 추천한다.
 

케이덴라이브(Kdenlive) – AI 기반의 객체 추적

이 무료 동영상 편집기는 2년 전부터 AI 기능을 제공해 왔다. 동영상 클립에서 자동으로 객체를 추적하는 모션 트래커를 통해 인식된 모티프에 지정된 효과를 적용할 수 있다. 예를 들면 동영상 클립에서 특정 객체를 모자이크 처리할 때 유용하다.
 
동영상에서 움직이는 얼굴을 흐리게 처리해 인식할 수 없도록 만들 수 있다. ⓒIDG

설치 방법 : 케이덴라이브는 64비트 윈도우용 오픈소스 설치 파일(100MB)로 제공되기 때문에 빠르게 설치할 수 있다. 또한 동작 추적 알고리즘에 사용되는 모델 데이터((“dasiamrpn_ kernel_cls1.onnx”, “dasiamrpn_kernel_r1.onnx”, “dasiamrpn_model.onnx”)가 있다. 3개 파일 모두 케이덴라이브 설치 디렉토리에 배치해야 한다. 배치 방법은 윈도우 탐색기의 주소 표시줄에 %AppData%/kdenlive를 입력한 후 ‘opencvmodels’라는 하위 폴더를 생성하면 된다. 다운로드한 3개의 모델 파일이 그곳에 배치된다.

작동 방식 : 케이덴라이브에서는 모션 트래커를 효과로 사용할 수 있다. 사용 방법은 좌측 상단 목록에서 가져온 클립을 아래 타임라인에 배치한 다음, 중간 메뉴 막대에서 ‘효과’ 탭으로 전환한 후, ‘알파, 마스크, 키 처리 – 모션 트래커(Alpha, Mask and Keying — Motion Tracker)’를 선택한다. 원하는 클립에 효과를 끌어 놓으면, 해당 효과의 설정이 열리고 미리보기 창에 빨간색 사각형이 표시된다. 설정에서 DaSIAM 유형을 ‘트래커 알고리즘’으로 선택한다. 타임라인에서 첫 번째 프레임으로 이동해 객체 주위에 빨간색 선택 프레임을 배치한 다음, ‘분석’을 클릭하여 객체 주위의 키 프레임을 계산한다. 예를 들면 얼굴 모자이크 처리도 즉시 선택할 수 있다.
 

스플리터(Spleeter) – 음악을 트랙으로 분할하기

이미 믹싱한 음악을 다시 개별 트랙으로 분리할 수 있는 AI 도구다. 스플리터는 2년 전 처음 공개된 이후 많은 관심을 받았다. 사전 학습된 모델을 사용해 MP3 형식의 음악을 2개나 4개 또는 5개의 개별 트랙으로 나눌 수 있다. 스플리터는 보컬, 베이스, 드럼, 리듬 섹션 등을 인식할 수 있다. 이 명령줄 도구는 AI 라이브러리 텐서플로우를 활용해 음악의 데이터 스트림을 분석하고, 아울러 인코더를 사용해 분리된 트랙을 개별 MP3 파일로 추출한다.
 
ⓒIDG

기반이 되는 모델은 프랑스 스트리밍 서비스 디저(Deezer)의 데이터를 학습했다. 디저는 라이선스가 있는 방대한 대중음악 카탈로그를 패턴 인식용 분석 자료로 사용할 수 있도록 허용했다. 이 학습 데이터는 개인적인 용도로는 무료로 쓸 수 있지만 별도로 설치해야 한다.

설치 방법 : 스플리터는 인기가 많은 덕분에 윈도우 버전이 있다. 파이썬 프로그램 구성 요소를 일일이 설치하지 않아도 된다는 이야기다. 윈도우 버전은 패키지 관리자 초콜릿리(Chocolately)를 통해 사용할 수 있는데, 먼저 초콜릿리를 준비해야 한다. 시작 메뉴에서 윈도우 파워 쉘(Windows PowerShell)로 이동한다. 마우스 우클릭 후 ‘관리자 권한으로 실행’ 옵션을 선택하면 열린다. 명령줄에서 다음을 입력한다. 

Set-ExecutionPolicy AllSigned

“j”를 입력해 실행 권한을 설정한다. 그다음의 명령은 아래와 같다. 

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))

윈도우 패키지 관리자 초콜릿리를 설치한다. 이제 패키지 관리자는 다음을 입력해 스플리터를 파워쉘에 설치할 수 있다.

choco install spleeter-msvc-exe

이제 학습 모델을 설치해야 한다. 새로 생성된 디렉토리(“C:\ProgramData\chocolatey\lib\spleeter-msvc-exe\tools\models”)의 일괄 실행 파일(“download_models.bat”)을 사용하면 된다. 파워쉘에서도 호출되며, 약 1.2GB의 데이터를 다운로드한다. 마지막으로 마이크로소프트의 비주얼 C++ 재배포판을 설치해야 한다.

작동 방식 : 모든 단계가 완료되면 파워셸이나 명령 프롬프트에서 계속 진행할 수 있다. 호출 방법은 다음과 같다. 

spleeter.exe datei.mp3

이를 통해 현재 디렉토리의 기존 MP3 파일을 보컬 부분과 악기 부분으로 분할해 개별 MP3 파일로 저장한다. 가장 간단한 응용 사례다. 연산 시간도 평균적인 성능의 PC 기준 몇 초밖에 걸리지 않는다. 일반적인 대중음악에서 스플리터는 드럼, 베이스 같은 트랙도 추가로 인식해 분리할 수 있다.

spleeter.exe -m 4stems datei.mp3

이 예시에서 스플리터는 패턴 인식 기능으로 한 곡의 음악에서 보컬, 베이스, 드럼, 리듬/반주 등 4개의 개별 트랙을 검색한다. 각 트랙이 개별 MP3 파일로 작업 디렉토리에 저장되기 때문에 연산 시간은 약간 더 오래 걸린다.
 
스플리터는 악기와 보컬을 분리하는 데 매우 정밀하게 작동하지만, 그 과정에서 고주파수를 차단한다. ⓒIDG

현재 작업 중인 음악의 반주에 독특한 특징이 있다면, 다음의 명령을 사용해 해당 부분을 5개의 트랙으로 분할할 수도 있다. 보컬, 베이스, 드럼, 피아노, 리듬 세션이 있을 때 가장 효과적이다.

spleeter.exe -m 5stems datei.mp3
 

마이크로소프트 엣지(Microsoft Edge) – 이미지 향상

마이크로소프트는 자체 데이터센터를 기반으로 일상적인 프로그램에 수많은 AI 기능을 적용 중이다. 결과적으로 어떤 기능이 유용할지는 두고 봐야 한다. 이미지는 물론 동영상까지 자동으로 업스케일링하는 엣지 웹 브라우저의 새로운 기능은 고해상도 화면에서 매우 멋진 결과를 제공한다.

설치 방법 : 마이크로소프트 엣지는 윈도우에 사전 설치돼 있지만, 이미지 향상을 위한 AI 기능은 개발자 버전에서만 사용할 수 있다. 개발자 버전의 퍼블릭 프리뷰 버전 설치 파일을 다운로드 받으면 된다. 

작동 방식 : 엣지 브라우저는 이미지를 마이크로소프트 서버로 보내 처리한 후 브라우저로 다시 보낸다. 사용자가 웹에서 어떤 이미지를 검색하는지 인식하고 평가할 것이라는 의미다. 따라서 이 AI 옵션 기능은 기본적으로는 활성화돼 있지 않다. edge://settings/privacy/enhanceImages 아래의 옵션 페이지에서 활성화할 수 있다.

이 기능은 특정 웹사이트에서 개별적으로 활성화할 수도 있다. 마이크로소프트 엣지의 알파 버전에서만 해당 AI 기능을 쓸 수 있으며, 자체 GPU를 사용해 흐릿한 동영상을 최대 720p 해상도까지 올릴 수도 있다. 이때 AMD 또는 엔비디아의 최신 그래픽 칩과 전용 드라이버가 필요하며, 데이터는 마이크로소프트 서버로 전송되지 않는다.
 

보스크(Vosk) – AI 기반의 음성 인식

오늘날 음성 녹음을 깔끔한 필사본으로 옮기는 것은 어렵지 않은 일이다. 음성 인식 엔진 칼디(Kaldi)를 기반으로 구축된 AI 프레임워크 보스크는 존스 홉킨스 대학교의 오픈 소스 프로젝트다.
 
위의 그림에서는 보스크가 MP4 형식의 영어 동영상의 오디오 트랙을 인식하도록 했다. ⓒIDG

설치 방법 : 윈도우에서 파이썬 3.11이 필요하다. 설치하면서 ‘PATH에 파이썬 추가(Add Python to PATH)’ 체크박스를 활성화해야 한다. 명령 프롬프트에서 다음의 2가지 명령을 입력한다. 

pip install ffmpeg
pip install vosk


이렇게 하면 보스크에 필수 구성 요소가 설치된다. 그다음 인코더/디코더(Ffmpeg)가 파일 형태(“ffmpeg-git-essentials.7z”)로 필요하다. 아카이브 콘텐츠는 새로 생성된 디렉토리(“C:Program Filesffmpeg”)에 배치돼 실행 파일(“ffmpeg.exe”)이 하위 폴더(“bin”)에 위치하게 된다. 이제 윈도우 환경 변수(“Path”)에 경로(“C:Program Filesffmpeg|bin”)를 추가해야 한다. 윈도우 아이콘 > 설정 > 시스템 > 고급 시스템 설정 > 환경 변수 > 경로 > 편집 > 새로 만들기를 통해서 하면 된다.

작동 방식 : 깃허브 웹사이트로 가서 ‘코드-ZIP 다운로드’에 있는 견본 스크립트를 다운로드하고 원하는 디렉토리에 압축을 푼다. 하위 폴더(“\pythonvosk\transcriber”)에 예제 스크립트(“transcriber.py”)가 들어 있다. 다음의 명령어를 사용한다. 

vosk-transcriber -l en-us -i test.mp4 -t srt -o englisch.srt

이를 통해 음성 인식 기능으로 동영상 파일(“test.mp4”)에서 자막 파일(“english.srt”)이 타임스탬프와 함께 생성된다. 스크립트는 적당한 언어 모델을 자동으로 다운로드한다. 완성된 파일을 다른 번역 프로그램에서 추가로 처리하면 다른 언어의 자막을 제작할 수 있다.
 

디지캠(Digikam) – 사진용 얼굴 인식

ⓒIDG

디지캠은 대용량 사진 정리 프로그램이다. 원래 리눅스용으로 개발됐고, 주기적으로 윈도우에 포팅되고 있다. 그 이유는 디지캠의 기능이 유용하기 때문이다. 앨범, 태그, 키워드별 사진 분류 기능을 비롯한 고급 분류 옵션이 있다. 여기에 얼굴 인식 기능과 이미지 품질 자동 등급 지정 기능이 AI 기반의 새로운 사진 관리 기능으로 추가됐다.

설치 방법 : 설치 프로그램(114MB)을 통해 64비트 윈도우에 쉽게 설치할 수 있다. 디지캠을 처음 실행하면 얼굴 인식 기능에 필요한 AI 모델 데이터(약 420MB)를 다운로드하라는 창이 뜬다. 

작동 방식 : 사진을 열면 이미지에 플러스 기호가 붙은 인물 기호가 표시된다. 얼굴을 직접 표시하고 이름을 붙이는 데 사용된다. 해당 인물이 포함된 몇 장의 사진에서 이 과정을 반복한다. 이후 메뉴의 검색 > 사람들 항목을 통해 전체 사진 모음에서 동일 인물을 찾을 수 있다.
 

후긴(Hugin) – 일련의 사진에서 파노라마 생성

ⓒIDG

지루한 이미지 처리 시간을 절약하는 한편 풍경 사진에서 완전히 새로운 풍경을 만들어 주는 도구다. 후긴은 단일 이미지를 겹쳐서 파노라마 사진을 생성한다. 파노라마는 풍경 촬영에서 매력적이다. 물론 현재는 스마트폰 앱으로도 쓸 수 있는 기능이긴 하지만, 후긴을 활용하면 결과를 정밀하게 제어할 수 있으며 개별 이미지를 세로로 결합할 수도 있다.

설치 방법 : 윈도우 프로그램이다. 아무 폴더에서나 압축을 풀면 된다. 실행 파일(hugin.exe)은 하위 폴더(“bin”)에 들어 있다.

작동 방식 : 후긴은 고급 사용자를 위한 도구다. 먼저 ‘이미지’ 탭에 추가돼 있는 2개의 개별 이미지로 구성된 작은 파노라마로 시작해 볼 것을 추천한다. 좋은 결과를 얻으려면 항상 개별 사진의 메타데이터에 나온 초점 거리를 수동으로 추가해야 한다. 같은 이름의 탭을 통해 겹치는 이미지 사이에 제어점을 추가하면 결과를 크게 향상시킬 수 있다. 
 

서브싱크(Subsync) – 자막 동기화

ⓒIDG

몇몇 웹사이트(예 : opensubtitles.org)는 VLC 같은 미디어 플레이어가 처리할 수 있는 형태로 영화 및 드라마 자막을 제공한다. 이때 해당 동영상 파일에 동기화돼 실행되는 자막 파일을 찾기 어려울 때가 많다. 자막이 영화(또는 드라마) 대사와 일치하지 않으면 감상의 즐거움도 떨어지기 마련이다. 무료 도구 서브싱크가 이 문제를 해결할 수 있다. 음성 인식과 인공지능을 활용해 자막 파일과 동영상 파일을 동기화해 주기 때문이다.

설치 방법 : 프로젝트 웹사이트에 다운로드할 수 있는 설치 프로그램과 모든 64비트 윈도우 버전용 무설치 프로그램(무료, 42MB)이 있다. 실행(EXE) 파일을 호출하면 프로그램 파일이 들어 있는 하위 폴더가 생긴다.

작동 방식 : 프로그램 인터페이스에서 SRT 형식의 자막 파일 경로가 상단 ‘자막’ 필드에 입력되고, 그 옆에는 이 파일의 언어가 입력돼야 한다. 그 아래의 ‘참조’ 필드에는 동영상 파일, 그 옆의 선택 항목에는 언어가 와야 한다. ‘시작’을 클릭하면 서브싱크가 선택된 언어에 적합한 사전 파일을 다운로드한다. 사전 파일 크기는 수십 메가바이트에 달한다. 이후 검색된 일치 항목에 기반해 동기화가 시작되고, SRT 파일의 타임스탬프가 다시 작성된다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.