AIㆍML

‘이미지와 동영상을 위한 AI’ 컴퓨터 비전의 원리와 유용한 데이터집합 및 모델

Martin Heller | InfoWorld 2020.08.31
컴퓨터 비전(computer vision)은 디지털 이미지와 동영상 속 사물을 식별하는 기술이다. 생명체는 시각 피질로 이미지를 처리하기 때문에, 많은 연구자들이 포유류의 시각 피질 구조를 모델로 삼아 이미지 인식을 수행할 신경망을 설계했다. 이러한 생물학적 연구는 1950년대로 거슬러 올라간다.

지난 20년간 컴퓨터 비전 기술은 놀랍게 발전했다. 아직 완벽하지는 않지만 컴퓨터 비전 시스템 중에는 99% 정확성을 보이는 것도 있고, 모바일 장치에서 제법 잘 실행되는 것도 있다.

시각 구현을 위한 신경망 분야의 돌파구는 1998년 얀 르쿤(Yann LeCun)의 르넷-5(LeNet-5)였다. 르넷-5는 7단계 콘볼루션 신경망(convolutional neural network, 이하 CNN)으로서 32x32픽셀 이미지로 디지털화된 육필 숫자를 인식할 수 있었다. 이보다 더 높은 해상도의 이미지를 분석하려면 르넷-5 네트워크가 더 많은 신경세포와 계층으로 확장해야 했다.
 
ⓒ Getty Images Bank

오늘날 가장 뛰어난 이미지 분류 모델의 경우, 다양한 사물을 컬러 HD 해상도로 식별 가능하다. 순수 심층 신경망(deep neural networks, DNN)뿐만 아니라 혼합형 시각 모델도 가끔 사용된다. 혼합형 모델은 특정 하위 작업을 수행하는 고전적인 머신러닝 알고리즘에 딥 러닝을 결합한 것이다.

시각 구현에 있어서 기본적인 이미지 분류 이외의 다른 문제들(예: 국소화로 이미지 분류, 사물 탐지, 사물 구획화, 이미지 형식 전송, 이미지 컬러화, 이미지 재구성, 이미지 초해상, 이미지 합성)은 딥 러닝으로 해결되었다.
 

컴퓨터 비전은 어떻게 작동하는가?

컴퓨터 비전 알고리즘은 주로 CNN에 의존한다. CNN은 보통 콘볼루션 계층, 풀링 계층, ReLU 계층, 전체 연결 계층, 손실 계층을 이용해 시각 피질을 비슷하게 구현해 낸다.

콘볼루션 계층은 기본적으로 작은 중복 구역 여러 개의 적분을 취한다. 풀링 계층은 비선형 다운 샘플링을 수행한다. ReLU 계층은 비포화 활성화 함수(f(x) = max(0,x))를 적용한다.

전체 연결 계층에서는 신경세포가 이전 계층의 모든 활성화에 연결되어 있다. 손실 계층은 망 훈련으로 인해 예측 라벨과 진짜 라벨의 편차가 어떻게 불리해지는지 계산한다. 이때 소프트맥스(Softmax) 또는 크로스엔트로피 손실(cross-entropy loss)을 분류에 활용한다.
 

컴퓨터 비전 훈련 데이터집합

비전 모델 훈련에 유용한 공개 이미지 데이터집합이 많이 있다. 그 중에서 가장 단순하고 가장 오래된 축에 속하는 MNIST에는 10개 등급의 육필 숫자 7만 개가 있다. 6만 개는 훈련용, 1만 개는 테스트용이다. MNIST는 모델화 하기 쉬운 데이터 집합이다. 심지어 가속 하드웨어가 없는 노트북으로도 할 수 있다. CIFAR-10과 패션-MNIST는 비슷한 10등급 데이터집합들이다. SVHN(스트리트 뷰 가옥 번호)는 구글 스트리트 뷰에서 추출한 실제 가옥 번호 이미지 60만 개를 모아 놓은 것이다.

COCO는 사물 탐지와 구획화, 자막 삽입을 위한 대규모 데이터집합이다. 80가지 사물 범주의 이미지 33만 개가 있다. 이미지넷(ImageNet)에는 상자와 라벨 이미지, 워드넷(WordNet)의 10만 개 이상의 구절 일러스트 등이 포함되어 있다. 오픈 이미지(Open Images)에는 이미지 URL 약 9백만 개와 라벨 약 5천 개가 있다.

구글, 애저, AWS는 모두 방대한 이미지 데이터베이스로 훈련된 자체 비전 모델이 있다. 그대로 사용해도 되고 전이 학습(transfer learning)을 실행해 본인의 이미지 데이터베이스에 맞게 적응시킬 수도 있다. 전이 학습은 이미지넷과 오픈이미지에 기반한 모델을 이용해 수행할 수도 있다. 전이 학습의 장점은 처음부터 모델을 구축하는 것(몇 주 소요)에 비해 훨씬 빠르고(몇 시간 소요)과 정확도가 더 높은 모델을 얻을 수 있다는 점이다. 최상의 결과를 얻으려면 여전히 라벨당 1,000개의 이미지가 필요하지만, 가끔은 라벨당 10개 정도의 이미지만으로도 충분한 경우가 있다.
 

컴퓨터 비전 애플리케이션

컴퓨터 비전은 완벽하지는 않지만 실제로 쓸 만한 정도는 되는 경우가 많다. 자율 주행 자동차에서의 활용이 대표적이다.

원래 구글 자율 주행 차량 프로젝트로 시작한 웨이모(Waymo)는 공공 도로에서 700만 마일의 주행 시험을 거쳐 안전한 일상 운행이 가능하다고 한다. 웨이모 승합차가 연루된 사건이 한 건 이상 있었는데 경찰에 따르면 소프트웨어의 문제는 아닌 것으로 알려졌다.

테슬라는 자율 주행 차량 모델이 3가지 있다. 2018년 테슬라 SUV 한 대가 자율 주행 모드로 달리던 중 사망 사고에 연루되었다. 사고 보고서에 따르면 운전자(사망)는 콘솔에서 경고가 여러 번 나왔음에도 불구하고 운전대에서 손을 뗀 상태였으며, 콘크리트 장벽을 들이받을 상황이었는데도 운전자도 소프트웨어도 제동을 걸지 않았다고 한다. 이 사건 이후에는 아예 운전자가 운전대에서 손을 떼지 못하도록 소프트웨어가 업그레이드되었다.
    
아마존 고(Go) 매장은 계산대가 없는 셀프서비스 소매점이다. 쇼핑객이 물건을 집어 들거나 돌려 놓으면 매장 내 컴퓨터 비전 시스템으로 탐지된다. 스마트폰 앱을 통해 쇼핑객 신원 파악과 결제도 이뤄진다. 아마존 고 소프트웨어에서 놓친 물건은 무료로 가져갈 수 있다. 가져간 물건의 계산이 잘못된 경우에 쇼핑객은 해당 물건을 표시해 두고 잘못 청구된 금액을 환불 받을 수 있다.

의료 분야에서는 병리학 슬라이드, 흉부 방사선 사진 등 의료 영상 시스템에서 구체적인 특징을 분류하기 위한 비전 애플리케이션들이 있다. 그중에는 숙련된 인력과 비교했을 때 가치가 입증된 것도 몇 가지 있고 규제 승인을 받기에 충분한 것도 있다. 수술실이나 분만실에서 환자의 혈액 손실량을 추산하기 위한 실시간 시스템도 있다.

이 밖에도 유용한 비전 애플리케이션으로는 농업용(농업 로봇, 작물 및 토양 모니터링, 예측 분석), 은행 업무용(사기 간파, 서류 인증, 원격 입금), 산업 모니터링용(원격 유전, 현장 보안, 작업 활동) 등이 있다.

컴퓨터 비전 애플리케이션 중에는 논란이 되거나 심지어 심한 반대에 부딪히는 것도 있다. 그중 한 가지는 사람 얼굴 인식 기능이다. 정부에서 사용할 경우 사생활 침해의 소지가 있고 훈련 편향이 생기는 경우가 많아서 백인이 아닌 사람의 얼굴은 식별을 잘못하는 경향이 있다. 합성 영상 제작도 논란과 반대의 대상이다. 외설물이나 장난 등 가짜 사진 제작에 사용될 경우에는 단순히 조금 오싹한 단계를 넘어서기 때문이다.
 

컴퓨터 비전 프레임워크와 모델

컴퓨터 비전은 대부분의 딥 러닝 프레임워크에서 지원된다. 예를 들면, 파이썬 기반 프레임워크들인 텐서플로우(TehnsorFlow, 프로덕션을 위한 최고의 선택), 파이토치(PyTorch, 학문 연구에 최고의 선택), 엠엑스넷(MXNet, 아마존이 선택한 프레임워크) 등이 있다. 오픈CV(OpneCV)는 컴퓨터 비전에 특화된 라이브러리이다. 실시간 비전 애플리케이션에 치우쳐 있으며 MMX 및 SSE 명령어가 이용가 능하면 이를 활용한다. CUDA, 오픈CL, 오픈GL, 벌컨(Vulkan)을 이용한 가속도 지원된다.

아마존 레코그니션(Amazon Rekognition)은 물체, 사람, 문자, 장면, 활동을 식별할 수 있는 이미지 및 동영상 분석 서비스로서 안면 분석 기능과 사용자 정의 라벨이 제공된다. 구글 클라우드 비전 API(Google Cloud Vision API)는 미리 훈련을 거친 이미지 분석 서비스이다. 물체 및 사람 얼굴 탐지 기능과 인쇄 및 육필 문자 판독 기능이 있으며 사용자의 이미지 카탈로그 내에 메타데이터를 구축할 수 있다. 구글 오토ML 비전은 사용자가 스스로 정의한 이미지 모델을 훈련하게 해 준다. 아마존 레코그니션 커스텀 라벨과 구글 오토ML 비전은 둘 다 전이 학습을 수행한다.

마이크로소프트 컴퓨터 비전 API(Microsoft Computer Vision API) 는 25개 언어로 된 라벨이 붙은 사물 1만 개 카탈로그에서 사물을 식별할 수 있다. 식별된 사물에 경계 상자도 반환한다. 애저 페이스 API(Azure Face API)는 사람 얼굴 탐지를 수행하여 이미지 내의 얼굴과 특성을 인식한다. 사람 식별도 수행하여 개인 보관소에 있는 최대 1백만 명 중 일치하는 사람 한 명을 찾아낸다. 인지 감정 인식도 수행한다. 페이스 API는 클라우드에서 또는 컨테이너 엣지에서 실행 가능하다.

IBM 왓슨 비주얼 레코그니션(IBM Watson Visual Recognition) 은 미리 훈련된 모델로부터 이미지를 분류할 수 있다. 또한, 사용자 정의 이미지 모델을 전이 학습으로 훈련하게 해 준다. 사물 집계로 사물 탐지를 수행하고 시각 검사 훈련을 할 수 있게도 해 준다. 왓슨 시각 인식은 클라우드에서 실행할 수 있으며 코어ML을 사용해 iOS 장치에서 실행할 수도 있다.

데이터 분석 패키지 매트랩(Matlab)은 머신 러닝 및 딥 러닝을 이용한 이미지 인식을 수행할 수 있다. 선택해 사용할 수 있는 컴퓨터 비전 툴박스가 있고 오픈CV와 통합 가능하다.

컴퓨터 비전 모델은 르넷-5 이후 많은 발전을 했으며 대부분 CNN이다. 예를 들면, 알렉스넷(AlexNet)(2012), VGG16/옥스포드넷(OxfordNet)(2014), 구글르넷(GoogLeNet)/인셉션V1(InceptionV1)(2014), 레즈넷50(Resnet50)(2015), 인셉션V3(2016), 모바일넷(MobileNet)(2017-2018) 등이 있다. 모바일넷 시각 신경망은 모바일 장치를 염두에 두고 설계되었다.

애플 비전(Apple Vision) 프레임워크는 사람 얼굴 및 안면 표지점 탐지와 문자 탐지, 바코드 인식, 이미지 등록, 일반 특징 추적을 수행한다. 분류나 사물 탐지와 같은 작업에 사용자 정의 코어 ML 모델을 사용할 수 있게도 해 준다. iOS와 맥OS에서 실행된다. 구글 ML 키트 SDK는 유사한 기능이 있고 안드로이드 장치와 iOS 장치에서 실행된다. ML 키트는 자연어 API를 추가로 지원한다.

지금까지 살펴본 것처럼 컴퓨터 비전 시스템은 유용한 수준으로 좋아졌으며 인간의 시력보다 더 정확한 경우도 있다. 전이 학습을 이용한 비전 모델 사용자 정의는 보통 사람들에게도 실현 가능해졌다. 컴퓨터 비전 분야는 이제 더 이상 박사급 연구자들의 전유물이 아니다. editor@itworld.co.kr
 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.