2020.06.05

토픽 브리핑 | "폭발적 성장에도 걸림돌은 있다" 딥 러닝의 현황과 과제

이대영 기자 | ITWorld
지난 10년 간 인공지능(Artificial Intelligence)의 세계는 엄청난 발전을 보여 각 산업계에서 잘 활용하고 있을뿐만 아니라 IT 산업의 모든 분야에서 없어서는 안될 요소가 됐다. 애플리케이션, 개발 툴, 컴퓨팅 플랫폼, DBMS, 미들웨어, 관리 및 모니터링 툴 등 거의 모든 IT 분야에 영향을 미치고 있다. 심지어 AI를 개선하는 데도 사용힌다. 

2020년대 인공지능 기술 동향 예측

하지만 일반 기업이 인공지능이나 머신러닝(Machine Learning)을 사용하기에는 아직도 기술 장벽이 높다(사실 높을 것으로 오해하는 측면이 많다). 특히 딥 러닝(Deep Learning)은 더욱 그그렇다. 

“비즈니스 결과물로 직결되는” AI, 머신러닝, 딥 러닝 이해와 활용 가이드

딥 러닝은 서로 연결된 한계 스위치(Threshold switches)를 통해 만든 인공 신경망(Artificial Neural Network)을 학습시켜, 동물의 뇌와 신경계처럼 패턴을 인식할 수 있게 만들 수 있다는 개념이다.



그래서 딥 러닝은 일반적으로 인공지능, 머신러닝을 거론할 때 떠오르는 인간의 머리, 두뇌와 같은 이미지에 가장 적합한 용어다. 딥 러닝은 데이터에 존재하는 패턴을 복잡한 다계층 네트워크로 모델화하는 머신러닝의 일종으로, 상당히 풀기 어려운 컴퓨터 비전이나 자연어 처리와 같은 문제를 해결하는데 사용한다. 하지만 학습과 배포에 있어 일반적인 컴퓨팅 역량으로는 감당하지 못해 GPU, TPU, FPGA 같은 하드웨어 엑셀레이터(가속기)가 필요하다.  

폭발적인 발전을 거듭하는 "딥 러닝" 이해하기
딥 러닝과 머신러닝의 차이점 이해하기 

딥 러닝이 좋다고 해서 머신러닝의 모든 영역을 차지하는 것은 아니다. 컴퓨터 비전과 같이 딥 러닝이 필수적인 영역도 있지만, 표 형태의 데이터와 같이 딥 러닝과 잘 맞지 않는 영역도 있다. 성능 좋은 노트북에서 몇 분이면 학습이 가능한 머신러닝 방식을 놔두고 비슷한 정확도를 얻는데 굳이 값비싼 딥러닝 모델을 사용할 필요가 없기 때문이다. 

딥러닝에 대한 10가지 질문 

또한 모든 회귀(regression) 또는 분류(classification) 문제를 딥 러닝으로 풀어야 할 필요는 없다. 그렇다고 해서 모든 회귀 또는 분류 문제를 머신러닝으로 풀어야 할 필요도 없다. 결국 많은 데이터 집합은 분석적으로, 또는 간단한 통계적 절차를 사용해 모델링할 수 있기 때문이다. 

반면 딥 러닝 또는 심층 전이 학습(deep transfer learning)이 다른 방법으로 만들 수 있는 모델보다 더 정확한 모델을 학습시키는 데 도움이 되는 경우도 있다. 특히 필요한 모델과 비슷한 것이 프레임워크의 라이브러리에 이미 존재한다면 파이토치(PyTorch)와 텐서플로우(TensorFlow)가 매우 효과적이다.

"파이토치"냐 "텐서플로우"냐, 딥 러닝 프레임워크 선택 가이드

특히 텐서플로우는 가장 완성도가 높고 연구 논문에서 가장 많이 인용되며, 프로덕션 사용 사례도 가장 긍정적이다. 배우기 가장 쉬운 프레임워크는 아니지만 텐서플로우 2가 출시되면서 2016년에 비하면 부담도 훨씬 더 낮아졌다. 

텐서플로우 2.0 사이트에서는 텐서플로우를 '포괄적인 오픈소스 머신러닝 플랫폼'으로 지칭한다. 구글이 말하는 '플랫폼'은 연구원이 머신러닝의 최신 기술을 연구하고 개발자가 AI 기반 애플리케이션을 손쉽게 구축해 배포할 수 있도록 하는 도구, 라이브러리, 커뮤니티 리소스의 종합적인 생태계를 의미한다.

리뷰 | 텐서플로우 2, "더 쉬워진 머신러닝"
파이토치로 딥러닝해야 하는 5가지 이유
텐서플로우, AI 모델링 전쟁에서 "한발 앞섰다"

이제 머신러닝과 딥 러닝의 중요성에 대해서는 반론의 여지가 없다. 지난 수십 년 동안 반복된 약속과 허황된 기대, 실망 끝에 마침내 실무에 활용되는 수준에 이르렀다. IT 운영팀에서도 애플리케이션을 관리 및 유지하는 데 필수적인 데브옵스와 SRE(Site Reliability Engineering)의 효율성을 한 단계 더 높이는 AI옵스(AIops)라는 목표를 갖게 됐다. 

'절차 간소화부터 자동화까지' AI옵스란 무엇인가

뿐만 아니라 오토머신러닝(AutoML)이라는 자동화된 머신러닝 모델링이 주목받고 있다. 특히 '신경망 구조 탐색(Neural Architecture Search, NAS)'이라는 유망한 오토머신러닝 접근방식은 AI 머신러닝 모델의 핵심인 CNN(Convolution Neural Network)과 기타 신경망 아키텍처를 최적화하는 자동화 툴과 방법론의 가능성을 의미한다.

AI '신경망 조정' 지옥에서 탈출하기, '오토머신러닝'

신경망 구조 탐색 기술의 발전에 있어 또 다른 중요한 이정표는 아마존이 이 기능을 내장한 오픈소스 오토머신러닝 툴킷을 공개했다는 사실이다. 아마존의 오토글루온(AutoGluon) 툴을 이용하면 초보자부터 숙련자까지 다양한 AI 개발자가 새로운 또는 기존의 모델 최적화를 자동화해 다양한 하드웨어 플랫폼에서 고성능 추론 기능을 구현할 수 있다. 

예를 들어 오토글루온은 단 3줄의 파이썬(Python) 코드에서 고성능 머신러닝 모델을 자동으로 생성한다. 사용 가능한 컴퓨팅 리소스를 활용하고 강화학습 알고리즘을 사용해 대상 환경에 가장 적합한 신경망 아키텍처를 검색한다. 오토글루온은 강화학습(Reinforcement Learning)을 통해 컴퓨팅 리소스를 효율적으로 사용해 자동 신경망 구조 탐색 속도를 높인다. 오토글루온은 머신러닝을 대중화하고 이를 모든 개발자가 사용할 수 있도록 개발된 것이다. 

아마존, 개발자용 딥 러닝 자동화 툴 '오토글루온' 공개

머신러닝이나 딥 러닝 애플리케이션은 아직 완벽함에는 이르지 못했지만 기업들의 기대를 저버리지 않을 정도로 발전했다. 하지만 아직도 풀리지 않은 과제가 남아 있다. 

인공지능을 둘러싼 가장 큰 걱정은 머신러닝 기반 모델이 흔히 “블랙박스”로 동작한다는 점이다. 이는 인공신경망으로 구성된 머신러닝 모델, 특히 딥 러닝이 너무 복잡하고 불가사의해 실제로 자동화된 추론을 어떻게 수행하는지 알 수 없다는 것이다. 머신러닝 기반 애플리케이션은 의도치 않게 자동화된 의사결정이 가져오는 어떤 편향되고 부정적인 영향에 대한 책임 소재를 불분명하게 만들 수 있다. 

이런 위험을 완화하기 위해 전 세계가 머신러닝의 실행 방식뿐만 아니라 머신러닝 모델이 만들어지고 교육하고 배치하는 전체 워크플로우에 대한 투명성을 요구하기 시작했다. 설명 가능성(Explainability)으로 알려진 알고리즘의 투명성을 위한 혁신적인 프레임워크가 현직 데이터 과학자들 사이에서 채택되고 있다.

향후 10년 AI 투명성의 위험을 완화하는 방법

하지만 이들 프레임워크도 해킹이 가능해 이들 툴이 생성하는 설명의 신뢰도가 하락하는 것은 물론, 기업은 알고리즘 해킹, 취약점 노출, 지적재산권 절취, 프라이버시 침해 등 여러 가지 위험에 직면할 수 있다. editor@itworld.co.kr 


2020.06.05

토픽 브리핑 | "폭발적 성장에도 걸림돌은 있다" 딥 러닝의 현황과 과제

이대영 기자 | ITWorld
지난 10년 간 인공지능(Artificial Intelligence)의 세계는 엄청난 발전을 보여 각 산업계에서 잘 활용하고 있을뿐만 아니라 IT 산업의 모든 분야에서 없어서는 안될 요소가 됐다. 애플리케이션, 개발 툴, 컴퓨팅 플랫폼, DBMS, 미들웨어, 관리 및 모니터링 툴 등 거의 모든 IT 분야에 영향을 미치고 있다. 심지어 AI를 개선하는 데도 사용힌다. 

2020년대 인공지능 기술 동향 예측

하지만 일반 기업이 인공지능이나 머신러닝(Machine Learning)을 사용하기에는 아직도 기술 장벽이 높다(사실 높을 것으로 오해하는 측면이 많다). 특히 딥 러닝(Deep Learning)은 더욱 그그렇다. 

“비즈니스 결과물로 직결되는” AI, 머신러닝, 딥 러닝 이해와 활용 가이드

딥 러닝은 서로 연결된 한계 스위치(Threshold switches)를 통해 만든 인공 신경망(Artificial Neural Network)을 학습시켜, 동물의 뇌와 신경계처럼 패턴을 인식할 수 있게 만들 수 있다는 개념이다.



그래서 딥 러닝은 일반적으로 인공지능, 머신러닝을 거론할 때 떠오르는 인간의 머리, 두뇌와 같은 이미지에 가장 적합한 용어다. 딥 러닝은 데이터에 존재하는 패턴을 복잡한 다계층 네트워크로 모델화하는 머신러닝의 일종으로, 상당히 풀기 어려운 컴퓨터 비전이나 자연어 처리와 같은 문제를 해결하는데 사용한다. 하지만 학습과 배포에 있어 일반적인 컴퓨팅 역량으로는 감당하지 못해 GPU, TPU, FPGA 같은 하드웨어 엑셀레이터(가속기)가 필요하다.  

폭발적인 발전을 거듭하는 "딥 러닝" 이해하기
딥 러닝과 머신러닝의 차이점 이해하기 

딥 러닝이 좋다고 해서 머신러닝의 모든 영역을 차지하는 것은 아니다. 컴퓨터 비전과 같이 딥 러닝이 필수적인 영역도 있지만, 표 형태의 데이터와 같이 딥 러닝과 잘 맞지 않는 영역도 있다. 성능 좋은 노트북에서 몇 분이면 학습이 가능한 머신러닝 방식을 놔두고 비슷한 정확도를 얻는데 굳이 값비싼 딥러닝 모델을 사용할 필요가 없기 때문이다. 

딥러닝에 대한 10가지 질문 

또한 모든 회귀(regression) 또는 분류(classification) 문제를 딥 러닝으로 풀어야 할 필요는 없다. 그렇다고 해서 모든 회귀 또는 분류 문제를 머신러닝으로 풀어야 할 필요도 없다. 결국 많은 데이터 집합은 분석적으로, 또는 간단한 통계적 절차를 사용해 모델링할 수 있기 때문이다. 

반면 딥 러닝 또는 심층 전이 학습(deep transfer learning)이 다른 방법으로 만들 수 있는 모델보다 더 정확한 모델을 학습시키는 데 도움이 되는 경우도 있다. 특히 필요한 모델과 비슷한 것이 프레임워크의 라이브러리에 이미 존재한다면 파이토치(PyTorch)와 텐서플로우(TensorFlow)가 매우 효과적이다.

"파이토치"냐 "텐서플로우"냐, 딥 러닝 프레임워크 선택 가이드

특히 텐서플로우는 가장 완성도가 높고 연구 논문에서 가장 많이 인용되며, 프로덕션 사용 사례도 가장 긍정적이다. 배우기 가장 쉬운 프레임워크는 아니지만 텐서플로우 2가 출시되면서 2016년에 비하면 부담도 훨씬 더 낮아졌다. 

텐서플로우 2.0 사이트에서는 텐서플로우를 '포괄적인 오픈소스 머신러닝 플랫폼'으로 지칭한다. 구글이 말하는 '플랫폼'은 연구원이 머신러닝의 최신 기술을 연구하고 개발자가 AI 기반 애플리케이션을 손쉽게 구축해 배포할 수 있도록 하는 도구, 라이브러리, 커뮤니티 리소스의 종합적인 생태계를 의미한다.

리뷰 | 텐서플로우 2, "더 쉬워진 머신러닝"
파이토치로 딥러닝해야 하는 5가지 이유
텐서플로우, AI 모델링 전쟁에서 "한발 앞섰다"

이제 머신러닝과 딥 러닝의 중요성에 대해서는 반론의 여지가 없다. 지난 수십 년 동안 반복된 약속과 허황된 기대, 실망 끝에 마침내 실무에 활용되는 수준에 이르렀다. IT 운영팀에서도 애플리케이션을 관리 및 유지하는 데 필수적인 데브옵스와 SRE(Site Reliability Engineering)의 효율성을 한 단계 더 높이는 AI옵스(AIops)라는 목표를 갖게 됐다. 

'절차 간소화부터 자동화까지' AI옵스란 무엇인가

뿐만 아니라 오토머신러닝(AutoML)이라는 자동화된 머신러닝 모델링이 주목받고 있다. 특히 '신경망 구조 탐색(Neural Architecture Search, NAS)'이라는 유망한 오토머신러닝 접근방식은 AI 머신러닝 모델의 핵심인 CNN(Convolution Neural Network)과 기타 신경망 아키텍처를 최적화하는 자동화 툴과 방법론의 가능성을 의미한다.

AI '신경망 조정' 지옥에서 탈출하기, '오토머신러닝'

신경망 구조 탐색 기술의 발전에 있어 또 다른 중요한 이정표는 아마존이 이 기능을 내장한 오픈소스 오토머신러닝 툴킷을 공개했다는 사실이다. 아마존의 오토글루온(AutoGluon) 툴을 이용하면 초보자부터 숙련자까지 다양한 AI 개발자가 새로운 또는 기존의 모델 최적화를 자동화해 다양한 하드웨어 플랫폼에서 고성능 추론 기능을 구현할 수 있다. 

예를 들어 오토글루온은 단 3줄의 파이썬(Python) 코드에서 고성능 머신러닝 모델을 자동으로 생성한다. 사용 가능한 컴퓨팅 리소스를 활용하고 강화학습 알고리즘을 사용해 대상 환경에 가장 적합한 신경망 아키텍처를 검색한다. 오토글루온은 강화학습(Reinforcement Learning)을 통해 컴퓨팅 리소스를 효율적으로 사용해 자동 신경망 구조 탐색 속도를 높인다. 오토글루온은 머신러닝을 대중화하고 이를 모든 개발자가 사용할 수 있도록 개발된 것이다. 

아마존, 개발자용 딥 러닝 자동화 툴 '오토글루온' 공개

머신러닝이나 딥 러닝 애플리케이션은 아직 완벽함에는 이르지 못했지만 기업들의 기대를 저버리지 않을 정도로 발전했다. 하지만 아직도 풀리지 않은 과제가 남아 있다. 

인공지능을 둘러싼 가장 큰 걱정은 머신러닝 기반 모델이 흔히 “블랙박스”로 동작한다는 점이다. 이는 인공신경망으로 구성된 머신러닝 모델, 특히 딥 러닝이 너무 복잡하고 불가사의해 실제로 자동화된 추론을 어떻게 수행하는지 알 수 없다는 것이다. 머신러닝 기반 애플리케이션은 의도치 않게 자동화된 의사결정이 가져오는 어떤 편향되고 부정적인 영향에 대한 책임 소재를 불분명하게 만들 수 있다. 

이런 위험을 완화하기 위해 전 세계가 머신러닝의 실행 방식뿐만 아니라 머신러닝 모델이 만들어지고 교육하고 배치하는 전체 워크플로우에 대한 투명성을 요구하기 시작했다. 설명 가능성(Explainability)으로 알려진 알고리즘의 투명성을 위한 혁신적인 프레임워크가 현직 데이터 과학자들 사이에서 채택되고 있다.

향후 10년 AI 투명성의 위험을 완화하는 방법

하지만 이들 프레임워크도 해킹이 가능해 이들 툴이 생성하는 설명의 신뢰도가 하락하는 것은 물론, 기업은 알고리즘 해킹, 취약점 노출, 지적재산권 절취, 프라이버시 침해 등 여러 가지 위험에 직면할 수 있다. editor@itworld.co.kr 


X