AIㆍML

페더레이티드 러닝, AI 데이터 관리 방식을 개선하고 데이터 유출 방지한다

Patrick Nelson | Network World 2020.08.07
미국 펜실베이니아 대학 병원(Penn Medicine)의 연구진은 페더레이티드 러닝(Federated learning)을 사용해 뇌종양을 탐지하고 치료하는 방법을 개선하는 새로운 AI 모델을 연구하고 있다.  
 
ⓒ Getty Images Bank

개인정보 보호는 인공지능 기반의 학습을 위한 유비쿼터스의 원활한 데이터 공유 세계에서 가장 큰 과제 가운데 하나다. 이상적인 세계에서는 머신러닝 알고리즘이 광범위한 데이터 세트로부터 경험을 얻을 수 있도록 의료 이미지 스캔과 같은 대량의 데이터를 전세계에 공개적으로 공유할 수 있다. 더 많은 데이터를 공유할수록 더 좋은 결과를 얻을 수 있다. 

이런 일은 현재 개인정보 보호가 가장 중요한 의료계를 포함해 모든 산업군에서 일어나지 않는다. 대부분의 경우, 뇌 MRI와 같은 의료 이미지 스캔은 분석을 위해 기관 내에 머물러있다. 결과는 공유되지만, 환자의 원본 스캔 데이터는 공유하지 않는다.
 
이 연구진은 데이터 관리 방식이 바뀌면 더 많은 정보를 기관 외부의 학습 알고리즘에 접근할 수 있어 전체 시스템에 도움을 줄 수 있다고 주장했다. 펜실베이니아 대학 병원 연구진은 사용자가 실제로 데이터 세트를 교환할 필요없이 여러 분산형 데이터 소스에서 알고리즘을 훈련할 수 있는 페더레이티드 러닝이라는 기술을 사용할 것을 제안했다. 

페더레이티드 러닝은 하나의 서버에 업로드된 데이터에 대한 분석을 실행하는 것이 아니라 많은 분산형 장치에 걸쳐 알고리즘을 훈련하는 방식으로 작동한다. 

펜실베이니아 의과대학 교수 스피리돈 바카스는 “계산 모델이 보는 데이터가 많을수록 문제를 더 잘 파악하고 답하도록 설계된 문제를 더 잘 해결할 수 있다”라고 말했다. 바카스는 학술지 사이언티픽 리포트(Scientific Reports)에 게재된 의학에서 페터레이티드 러닝의 사용에 관한 연구의 주 저자다. 바카스는 “전통적으로 머신러닝은 단일 기관의 데이터를 사용해왔는데, 그 이후 이런 모델이 다른 기관의 데이터를 잘 수행하거나 일반화하지 못하는 것이 명백하다”라고 설명했다. 

펜실베이니아 의과대학 연구는 페더레이티드 러닝을 통해 임상의가 뇌 MRI를 공유해 뇌종양을 더 잘 식별하고 치료하는데 도움이 되는 AI 시스템을 설계하는데 초점을 맞추고 있다. 

연구진에 따르면, 현재 당장의 문제는 유용한 샘플 데이터는 모두 수집한 기관이 비공개로 보관한다는 것이다. 모델이 만들어지는 해당 기관이 현지에서 분석하며, 각 모델은 다른 기관에서 작업할 순 있지만, 시나리오가 모두 다르기 때문에 이상적이지 않았다. 

이런 데이터를 더 잘 수행하는 방법은 페터레이티드 머신러닝을 사용해 모델(예를 들어, 뇌종양 탐지 모델)을 만든 다음, 해당 모델을 전세계 병원과 공유하는 것이다. 훈련 모델은 기관 간 데이터 공유 대신 다른 데이터 소유자에게 배포된다.  

연구진은 “예를 들어 펜실베이니아 의과대학에서 훈련받은 모델은 전세계 병원에 배포할 수 있다. 그러면 의사는 환자의 뇌 스캔을 입력해 이 공유 모델을 기반으로 훈련할 수 있다. 그런 다음 새로운 모델은 중앙 집중식 서버로 전송된다. 이 모델은 결국 각 병원으로부터 지식을 얻은 합의 모델로 조정되어 임상적으로 유용하다”라고 평가했다. 

당연히 환자 데이터를 보호하고 개인정보보호 문제가 해결되어 미국 국회가 동의하면 전세계 병원이 참여할 수 있다. 펜실베이니아 의과대학은 여러 기관에 걸쳐 대규모 테스트를 진행하고 있다. 

연구진은 콜레버레이티브 러닝(collaborative learning)이라고도 하는 이 페더레이티드 러닝은 AI의 차세대 물결이 될 것이라고 예상했다(구글은 예측 키보드(predictive keyboards)를 개선하기 위해 페더레이티드 러닝의 첫 번째 사용 사례 가운데 하나로 알려졌다).
 
이번 연구의 공동저자이자 피츠버그 의과대학 방사선과 부교수 리브카 콜렌에 따르면, 페더레이티드 러닝은 의료 분야에서 AI를 사용할 수 있는 더 많은 기회를 창출할 수 있다. 콜렌은 “이는 엄청난 게임 체인저라 생각한다. AI는 이 분야에서 혁명을 일으킬 것이다. 왜냐하면 지금 당장 방사선과 의사로서 하는 일의 대부분은 설명적이기 때문이다. 딥 러닝을 통해 우리는 디지털화 된 이미지에 숨겨진 정보를 추출할 수 있게 됐다”라고 밝혔다. 

개별 데이터가 아닌 공통 모델을 공유하는 개념은 IoT와 같은 다른 애플리케이션에도 적합할 수 있다. 예를 들어, 코넬 대학교는 최근 발표한 논문에서 클라우드 에지 아키텍처를 위한 페더레이티드 러닝 IoT 프레임워크를 제안했다. editor@itworld.co.kr 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.