2020.12.04

텐서플로우에서 파이토치로 바꾼 3개 기업의 이유 있는 전환

머신러닝의 하위 범주인 딥 러닝은 다중 계층 신경망을 사용해서 이미지 인식, 자연어 처리(NLP), 기계 번역 같이 전통적으로 어려운 기계 작업을 대규모로 자동화한다.
 
2015년에 구글에서 탄생한 텐서플로우는 학계와 기업 양쪽 모두에서 가장 인기 있는 오픈소스 딥 러닝 프레임워크다. 그러나 2016년 2월에 등장한 파이토치(PyTorch)가 커뮤니티의 주도로 다양한 사용 사례에 대한 사용 및 배포 편의성을 개선하면서 빠른 속도로 따라잡고 있다.
     
파이토치는 특히 자동차 업계에서 활발하게 도입되어 테슬라, 리프트 레벨 5(Lyft Level 5)와 같은 자율 운전 시스템 파일럿에 적용되고 있다. 또한 미디어 기업에서 콘텐츠 분류와 추천에 사용되고 산업 애플리케이션에서 로봇을 지원하는 용도로도 사용된다.
 
ⓒ Getty Images Bank
 
페이스북 AI의 인공지능 부문 제품 책임자인 조 스피삭은 인포월드와의 인터뷰에서 기업의 파이토치 도입 증가는 반가운 일이지만 더 폭넓은 업계 도입을 이끌기 위해서는 해야 할 일이 여전히 많다고 말했다.
 
스피삭은 “라이프사이클 관리, ML옵스, 쿠브플로우(Kubeflow) 파이프라인과 이를 중심으로 한 커뮤니티가 활성화되어야 도입 범위를 한층 더 넓힐 수 있다”면서 “여정의 초기에 있는 기업에는 좋은 툴이다. 관리형 서비스와 오픈소스, 그리고 애저 ML이나 AWS에서 세이지메이커(SageMaker at AWS) 등을 사용해 시작할 수 있다”고 말했다.
 

디즈니의 애니메이션 내 얼굴 식별 사례

미디어 공룡 디즈니의 엔지니어와 데이터 과학자는 2012년부터 콘텐트 지놈(Content Genome)을 구축하고 있다. 콘텐츠 지놈은 디즈니의 방대한 콘텐트 라이브러리 전반에서 콘텐츠 메타데이터를 조합해 머신러닝 기반 검색과 개인화 애플리케이션을 실행하는 지식 그래프다.
 
디즈니 개발자 미구엘 앙겔 파레, 앤서니 아카르도, 마크 주니엔트, 모니카 알파로와 세스크 기타르트는 지난 7월 블로그 글에서 “이 메타데이터는 디즈니 스토리텔러들이 콘텐츠를 생산하는 데 사용하는 툴을 개선하며, 스토리텔링에서 반복적인 창의성을 촉진하고 추천 엔진, 디지털 탐색 및 콘텐츠 검색을 통해 사용자 경험을 강화하고 비즈니스 인텔리전스를 실현한다”고 썼다.
 
이를 위해 디즈니는 방대한 콘텐츠 주석 프로젝트에 투자하면서 데이터 과학자들에게 이미지 인식을 위한 딥 러닝 모델을 사용해 많은 양의 사람, 캐릭터, 장소를 식별하기 위해 자동화된 태깅 파이프라인을 학습시키도록 했다.
 
디즈니 엔지니어들은 먼저 텐서플로우를 포함한 다양한 프레임워크의 실험에 착수했지만 2019년에 파이토치를 중심으로 통합하기로 결정했다. 방향 그라디언트의 히스토그램(HOG) 기능 설명자와 많이 사용되는 서포트 백터 머신(SVM) 모델은 합성곱 신경망을 사용한 리전(Regions with Convolutional Neural Networks, R-CNN)이라는 객체 탐지 아키텍처로 전환했다. 후자가 디즈니 콘텐츠에 일반적인 활발한 동작과 애니메이션, 시각 효과의 조합을 처리하는 데 더 적합하기 때문이다.
 
디즈니 연구 엔지니어 모니카 알파로는 “만화에서는 무엇이 얼굴인지 정의하기가 어려우므로 객체 탐지기를 사용하는 딥러닝 방법으로 전환하고 전이 학습을 사용했다”고 설명했다. 새로운 모델은 몇 천 개의 얼굴을 처리한 이후에는 세 가지 사용 사례에서 모두 광범위하게 얼굴을 식별하기 시작했고 2020년 1월 프로덕션으로 진입했다.
 
알파로는 “이제 세 가지 유형의 얼굴에 하나의 모델만 사용한다. 이는 아이언맨과 토니 스타크처럼 가면을 쓰는 캐릭터를 인식해야 하는 어벤저스와 같은 마블 영화에 실행하기에 적합하다”고 말했다.
 
엔지니어들은 병렬로 모델을 학습시키고 실행하기 위해 방대한 용량의 비디오 데이터를 처리하면서 프로덕션으로 전환할 때는 고가의 고성능 GPU에서 작업을 실행하기로 했다.
 
CPU에서 GPU로의 전환을 통해 엔지니어는 더 빠르게 모델을 재학습시키고 업데이트할 수 있게 됐다. 또한 디즈니 전반의 다양한 그룹으로 결과물을 배포하는 속도도 빨라져서, 장편 영화에 대략 1시간 소요되던 작업이 지금은 5~10분 사이에 완료돼 결과를 얻는다.
 
알파로는 “텐서플로우 객체 탐지기는 프로덕션에서 메모리 문제를 일으켰고 업데이트하기가 어려웠지만 파이토치는 같은 객체 탐지기와 패스터-RCNN(Faster-RCNN)이 있었다. 그래서 모든 요소에서 파이토치를 사용하기 시작했다”고 말했다.
 
다른 프레임워크로의 전환은 엔지니어 팀이 예상한 것보다 훨씬 더 간단했다. 알파로는 “파이토치로의 전환은 쉬웠다. 모든 요소가 내장돼 있어서 몇 가지 기능을 집어넣고 바로 사용을 시작할 수 있다. 배우기가 어렵지 않다”고 말했다.
 
문제나 막히는 부분이 있는 경우에도 활발한 파이토치 커뮤니티에서 도움을 받을 수 있었다.
 

블루 리버 테크놀로지의 잡초 제거 로봇 사례

블루 리버 테크놀로지(Blue River Technology)는 디지털 경로 찾기, 통합 카메라, 컴퓨터 비전을 결합해 주변의 곡물을 피해 잡초에만 제초제를 살포하는 로봇을 설계했다. 이 로봇을 사용하면 농가에서는 값비싸고 환경 피해 가능성도 있는 제초제 양을 효율적으로 감량할 수 있다.
 
중장비 제조업체 존 디어(John Deere)는 이 기술을 자체 농업 장비에 통합하기 위해 2017년 3억 500만 달러에 블루 리버 테크놀로지를 인수했다.
 
블루 리버 연구진은 잡초와 곡물의 차이를 인지하는 컴퓨터 비전 모델을 학습시키면서 다양한 딥 러닝 프레임워크로 실험했다. 잡초와 곡물의 구분은 잡초와 비슷하게 생긴 목화에서 특히 어려운 과제다.
 
블루 리버 테크놀로지의 컴퓨터 비전 및 머신러닝 책임자인 크리스 패드윅은 지난 8월 블로그에 수동 이미지 라벨링 작업을 위해 고도로 숙련된 농학자를 채용하고 파이토치를 사용해 합성곱 신경망(CNN)을 학습시켜 “각 프레임을 분석하고 픽셀 단위의 정확도를 갖춘 곡물과 잡초의 위치 지도를 생성했다”고 썼다.
 
패드윅은 인포월드와의 인터뷰에서 “다른 기업과 마찬가지로 존 디어도 카페(Caffe), 텐서플로우, 그 다음으로 파이토치를 시도했다. 파이토치는 거의 기본 상태 그대로 작동했다. 버그 보고도 없었고 중단을 일으키는 버그도 전혀 없었다. 분산 컴퓨팅에서 빛을 발하며, 데이터 병렬성 측면에서 매우 복잡한 텐서플로우보다 사용하기 쉽다”고 말했다.
 
패드윅은 파이토치 프레임워크의 인기와 단순함은 신속하게 신규 인력 채용이 필요할 때도 유리하다고 말했다. 패드윅이 생각하는 이상적인 환경은 “무엇이든 각자 좋아하는 것으로 개발할 수 있는” 환경이다. 패드윅은 “아파치 MXNet을 선호하는 사람도 있고 연구를 위해 다크넷(Darknet) 또는 카페를 선호하는 사람도 있다. 그러나 프로덕션에서는 하나의 언어를 사용해야 한다. 파이토치는 성공적인 운영에 필요한 모든 것을 갖추고 있다”고 말했다.
 

데이터록의 광업용 클라우드 기반 이미지 분석

지구과학자가 모여 창업한 오스트레일리아의 신생 기업 데이터록(Datarock)은 컴퓨터 비전 기술을 광업에 적용한다. 더 구체적으로, 이 회사의 딥 러닝 모델은 지질학자가 시추 코어 시료 이미지를 전보다 빠르게 분석할 수 있게 해준다.
 
전통적으로 지질학자는 이 시료를 센티미터 단위로 하나하나 살펴보면서 광물과 구조를 조사하고, 그 사이 엔지니어들은 결점, 균열, 암석 품질과 같은 물리적인 특징을 살핀다. 이 과정은 느리고 사람의 실수도 곧잘 발생한다.
 
데이터록의 COO 브렌튼 크로포드는 인포월드와의 인터뷰에서 “컴퓨터는 엔지니어처럼 암석을 볼 수 있다. 이미지로 암석을 볼 수 있다면 사람처럼 분석하도록 모델을 학습시킬 수 있다”고 말했다.
 
데이터록도 블루 리버와 마찬가지로 프로덕션에서 RCNN 모델의 변형을 사용하고 연구원들은 데이터 증강 기술을 사용해 초기 단계에서 충분한 학습 데이터를 수집한다.
 
연구진은 블로그 글에서 “초기 탐색 기간 이후, 팀은 여러 기법을 결합해서 시추 코어 이미지를 위한 이미지 처리 워크플로우를 만들기 시작했다. 원시 이미지를 구조적인 형식으로 처리하고 중요한 지질학적 정보를 분류할 수 있는 일련의 딥 러닝 모델을 개발했다”고 썼다.
 
고객 기업은 데이터록 기술을 사용해서 30분만에 결과를 얻을 수 있다. 수동으로 결과 일지를 작성할 경우 5~6시간이 걸린다. 크로포드는 덕분에 지질학자가 번거로운 작업에서 벗어날 수 있었다면서 “그러나 더 어려운 부분을 자동화할 때는 반발이 있고, 자동화가 이 시스템에서 모델을 학습시키고 피드백 루프를 회전시키기 위한 작업의 일부임을 설명해야 한다”고 말했다.
 
딥 러닝 컴퓨터 비전 모델을 학습시키는 다른 많은 기업과 마찬가지로 데이터록도 텐서플로우로 시작했지만 곧 파이토치로 전환했다.
 
데이터록의 머신러닝 책임자인 듀이 틴 트롱은 “처음에는 텐서플로우를 사용했지만 알 수 없는 이유로 충돌이 발생하곤 했다. 그 시점에 파이토치와 디텍트론2(Detectron2)가 나왔고 요구 사항과도 잘 맞았다. 얼마간의 테스트로 디버그와 작업이 더 쉽고 메모리 점유율도 더 낮음을 확인한 후 전환했다”고 말했다.
 
또한 데이터록은 텐서플로우에서 파이토치와 디텍트론2로 전환한 후 GPU에서 모델 실행 시 추론 성능이 4배 향상됐다고 보고했다(CPU로 실행할 경우 3배).
 
트롱은 전환의 이유로 활발하게 성장 중인 커뮤니티, 잘 설계된 인터페이스, 사용의 용이함, 더 나은 디버깅을 언급하며, “인터페이스 관점에서 상당히 다르지만 텐서플로우에 익숙하다면, 특히 파이썬을 아는 경우 쉽게 전환할 수 있다”고 말했다. editor@itworld.co.kr 


2020.12.04

텐서플로우에서 파이토치로 바꾼 3개 기업의 이유 있는 전환

머신러닝의 하위 범주인 딥 러닝은 다중 계층 신경망을 사용해서 이미지 인식, 자연어 처리(NLP), 기계 번역 같이 전통적으로 어려운 기계 작업을 대규모로 자동화한다.
 
2015년에 구글에서 탄생한 텐서플로우는 학계와 기업 양쪽 모두에서 가장 인기 있는 오픈소스 딥 러닝 프레임워크다. 그러나 2016년 2월에 등장한 파이토치(PyTorch)가 커뮤니티의 주도로 다양한 사용 사례에 대한 사용 및 배포 편의성을 개선하면서 빠른 속도로 따라잡고 있다.
     
파이토치는 특히 자동차 업계에서 활발하게 도입되어 테슬라, 리프트 레벨 5(Lyft Level 5)와 같은 자율 운전 시스템 파일럿에 적용되고 있다. 또한 미디어 기업에서 콘텐츠 분류와 추천에 사용되고 산업 애플리케이션에서 로봇을 지원하는 용도로도 사용된다.
 
ⓒ Getty Images Bank
 
페이스북 AI의 인공지능 부문 제품 책임자인 조 스피삭은 인포월드와의 인터뷰에서 기업의 파이토치 도입 증가는 반가운 일이지만 더 폭넓은 업계 도입을 이끌기 위해서는 해야 할 일이 여전히 많다고 말했다.
 
스피삭은 “라이프사이클 관리, ML옵스, 쿠브플로우(Kubeflow) 파이프라인과 이를 중심으로 한 커뮤니티가 활성화되어야 도입 범위를 한층 더 넓힐 수 있다”면서 “여정의 초기에 있는 기업에는 좋은 툴이다. 관리형 서비스와 오픈소스, 그리고 애저 ML이나 AWS에서 세이지메이커(SageMaker at AWS) 등을 사용해 시작할 수 있다”고 말했다.
 

디즈니의 애니메이션 내 얼굴 식별 사례

미디어 공룡 디즈니의 엔지니어와 데이터 과학자는 2012년부터 콘텐트 지놈(Content Genome)을 구축하고 있다. 콘텐츠 지놈은 디즈니의 방대한 콘텐트 라이브러리 전반에서 콘텐츠 메타데이터를 조합해 머신러닝 기반 검색과 개인화 애플리케이션을 실행하는 지식 그래프다.
 
디즈니 개발자 미구엘 앙겔 파레, 앤서니 아카르도, 마크 주니엔트, 모니카 알파로와 세스크 기타르트는 지난 7월 블로그 글에서 “이 메타데이터는 디즈니 스토리텔러들이 콘텐츠를 생산하는 데 사용하는 툴을 개선하며, 스토리텔링에서 반복적인 창의성을 촉진하고 추천 엔진, 디지털 탐색 및 콘텐츠 검색을 통해 사용자 경험을 강화하고 비즈니스 인텔리전스를 실현한다”고 썼다.
 
이를 위해 디즈니는 방대한 콘텐츠 주석 프로젝트에 투자하면서 데이터 과학자들에게 이미지 인식을 위한 딥 러닝 모델을 사용해 많은 양의 사람, 캐릭터, 장소를 식별하기 위해 자동화된 태깅 파이프라인을 학습시키도록 했다.
 
디즈니 엔지니어들은 먼저 텐서플로우를 포함한 다양한 프레임워크의 실험에 착수했지만 2019년에 파이토치를 중심으로 통합하기로 결정했다. 방향 그라디언트의 히스토그램(HOG) 기능 설명자와 많이 사용되는 서포트 백터 머신(SVM) 모델은 합성곱 신경망을 사용한 리전(Regions with Convolutional Neural Networks, R-CNN)이라는 객체 탐지 아키텍처로 전환했다. 후자가 디즈니 콘텐츠에 일반적인 활발한 동작과 애니메이션, 시각 효과의 조합을 처리하는 데 더 적합하기 때문이다.
 
디즈니 연구 엔지니어 모니카 알파로는 “만화에서는 무엇이 얼굴인지 정의하기가 어려우므로 객체 탐지기를 사용하는 딥러닝 방법으로 전환하고 전이 학습을 사용했다”고 설명했다. 새로운 모델은 몇 천 개의 얼굴을 처리한 이후에는 세 가지 사용 사례에서 모두 광범위하게 얼굴을 식별하기 시작했고 2020년 1월 프로덕션으로 진입했다.
 
알파로는 “이제 세 가지 유형의 얼굴에 하나의 모델만 사용한다. 이는 아이언맨과 토니 스타크처럼 가면을 쓰는 캐릭터를 인식해야 하는 어벤저스와 같은 마블 영화에 실행하기에 적합하다”고 말했다.
 
엔지니어들은 병렬로 모델을 학습시키고 실행하기 위해 방대한 용량의 비디오 데이터를 처리하면서 프로덕션으로 전환할 때는 고가의 고성능 GPU에서 작업을 실행하기로 했다.
 
CPU에서 GPU로의 전환을 통해 엔지니어는 더 빠르게 모델을 재학습시키고 업데이트할 수 있게 됐다. 또한 디즈니 전반의 다양한 그룹으로 결과물을 배포하는 속도도 빨라져서, 장편 영화에 대략 1시간 소요되던 작업이 지금은 5~10분 사이에 완료돼 결과를 얻는다.
 
알파로는 “텐서플로우 객체 탐지기는 프로덕션에서 메모리 문제를 일으켰고 업데이트하기가 어려웠지만 파이토치는 같은 객체 탐지기와 패스터-RCNN(Faster-RCNN)이 있었다. 그래서 모든 요소에서 파이토치를 사용하기 시작했다”고 말했다.
 
다른 프레임워크로의 전환은 엔지니어 팀이 예상한 것보다 훨씬 더 간단했다. 알파로는 “파이토치로의 전환은 쉬웠다. 모든 요소가 내장돼 있어서 몇 가지 기능을 집어넣고 바로 사용을 시작할 수 있다. 배우기가 어렵지 않다”고 말했다.
 
문제나 막히는 부분이 있는 경우에도 활발한 파이토치 커뮤니티에서 도움을 받을 수 있었다.
 

블루 리버 테크놀로지의 잡초 제거 로봇 사례

블루 리버 테크놀로지(Blue River Technology)는 디지털 경로 찾기, 통합 카메라, 컴퓨터 비전을 결합해 주변의 곡물을 피해 잡초에만 제초제를 살포하는 로봇을 설계했다. 이 로봇을 사용하면 농가에서는 값비싸고 환경 피해 가능성도 있는 제초제 양을 효율적으로 감량할 수 있다.
 
중장비 제조업체 존 디어(John Deere)는 이 기술을 자체 농업 장비에 통합하기 위해 2017년 3억 500만 달러에 블루 리버 테크놀로지를 인수했다.
 
블루 리버 연구진은 잡초와 곡물의 차이를 인지하는 컴퓨터 비전 모델을 학습시키면서 다양한 딥 러닝 프레임워크로 실험했다. 잡초와 곡물의 구분은 잡초와 비슷하게 생긴 목화에서 특히 어려운 과제다.
 
블루 리버 테크놀로지의 컴퓨터 비전 및 머신러닝 책임자인 크리스 패드윅은 지난 8월 블로그에 수동 이미지 라벨링 작업을 위해 고도로 숙련된 농학자를 채용하고 파이토치를 사용해 합성곱 신경망(CNN)을 학습시켜 “각 프레임을 분석하고 픽셀 단위의 정확도를 갖춘 곡물과 잡초의 위치 지도를 생성했다”고 썼다.
 
패드윅은 인포월드와의 인터뷰에서 “다른 기업과 마찬가지로 존 디어도 카페(Caffe), 텐서플로우, 그 다음으로 파이토치를 시도했다. 파이토치는 거의 기본 상태 그대로 작동했다. 버그 보고도 없었고 중단을 일으키는 버그도 전혀 없었다. 분산 컴퓨팅에서 빛을 발하며, 데이터 병렬성 측면에서 매우 복잡한 텐서플로우보다 사용하기 쉽다”고 말했다.
 
패드윅은 파이토치 프레임워크의 인기와 단순함은 신속하게 신규 인력 채용이 필요할 때도 유리하다고 말했다. 패드윅이 생각하는 이상적인 환경은 “무엇이든 각자 좋아하는 것으로 개발할 수 있는” 환경이다. 패드윅은 “아파치 MXNet을 선호하는 사람도 있고 연구를 위해 다크넷(Darknet) 또는 카페를 선호하는 사람도 있다. 그러나 프로덕션에서는 하나의 언어를 사용해야 한다. 파이토치는 성공적인 운영에 필요한 모든 것을 갖추고 있다”고 말했다.
 

데이터록의 광업용 클라우드 기반 이미지 분석

지구과학자가 모여 창업한 오스트레일리아의 신생 기업 데이터록(Datarock)은 컴퓨터 비전 기술을 광업에 적용한다. 더 구체적으로, 이 회사의 딥 러닝 모델은 지질학자가 시추 코어 시료 이미지를 전보다 빠르게 분석할 수 있게 해준다.
 
전통적으로 지질학자는 이 시료를 센티미터 단위로 하나하나 살펴보면서 광물과 구조를 조사하고, 그 사이 엔지니어들은 결점, 균열, 암석 품질과 같은 물리적인 특징을 살핀다. 이 과정은 느리고 사람의 실수도 곧잘 발생한다.
 
데이터록의 COO 브렌튼 크로포드는 인포월드와의 인터뷰에서 “컴퓨터는 엔지니어처럼 암석을 볼 수 있다. 이미지로 암석을 볼 수 있다면 사람처럼 분석하도록 모델을 학습시킬 수 있다”고 말했다.
 
데이터록도 블루 리버와 마찬가지로 프로덕션에서 RCNN 모델의 변형을 사용하고 연구원들은 데이터 증강 기술을 사용해 초기 단계에서 충분한 학습 데이터를 수집한다.
 
연구진은 블로그 글에서 “초기 탐색 기간 이후, 팀은 여러 기법을 결합해서 시추 코어 이미지를 위한 이미지 처리 워크플로우를 만들기 시작했다. 원시 이미지를 구조적인 형식으로 처리하고 중요한 지질학적 정보를 분류할 수 있는 일련의 딥 러닝 모델을 개발했다”고 썼다.
 
고객 기업은 데이터록 기술을 사용해서 30분만에 결과를 얻을 수 있다. 수동으로 결과 일지를 작성할 경우 5~6시간이 걸린다. 크로포드는 덕분에 지질학자가 번거로운 작업에서 벗어날 수 있었다면서 “그러나 더 어려운 부분을 자동화할 때는 반발이 있고, 자동화가 이 시스템에서 모델을 학습시키고 피드백 루프를 회전시키기 위한 작업의 일부임을 설명해야 한다”고 말했다.
 
딥 러닝 컴퓨터 비전 모델을 학습시키는 다른 많은 기업과 마찬가지로 데이터록도 텐서플로우로 시작했지만 곧 파이토치로 전환했다.
 
데이터록의 머신러닝 책임자인 듀이 틴 트롱은 “처음에는 텐서플로우를 사용했지만 알 수 없는 이유로 충돌이 발생하곤 했다. 그 시점에 파이토치와 디텍트론2(Detectron2)가 나왔고 요구 사항과도 잘 맞았다. 얼마간의 테스트로 디버그와 작업이 더 쉽고 메모리 점유율도 더 낮음을 확인한 후 전환했다”고 말했다.
 
또한 데이터록은 텐서플로우에서 파이토치와 디텍트론2로 전환한 후 GPU에서 모델 실행 시 추론 성능이 4배 향상됐다고 보고했다(CPU로 실행할 경우 3배).
 
트롱은 전환의 이유로 활발하게 성장 중인 커뮤니티, 잘 설계된 인터페이스, 사용의 용이함, 더 나은 디버깅을 언급하며, “인터페이스 관점에서 상당히 다르지만 텐서플로우에 익숙하다면, 특히 파이썬을 아는 경우 쉽게 전환할 수 있다”고 말했다. editor@itworld.co.kr 


X