2015.02.27

구글 딥마인드, 게임법을 스스로 터득하는 'DQN' 개발

Tim Hornyak | PCWorld
지난해 구글이 인수한 인공지능 업체 딥마인드(DeepMind)가 클래식 아타리(Atari) 비디오 게임 플레이를 스스로 학습하는 인공지능 프로그램인 DQN(Deep Q-network)를 개발했다. DQN은 점수와 픽셀 디스플레이를 입정 정보로 활용하여 아타리 2600 비디오 게임을 플레이하는 법을 스스로 터득한다.

해당 연구는 네이처(Nature) 저널에 실렸으며, 데미스 하사비스를 비롯한 구글 딥마인드 공동 연구자들은 이 프로그램은 테스트를 진행한 49개의 게임 대다수에서 이전 알고리즘보다도 더 나은 성능을 보였다고 언급했다. 또한, 전문적인 게임 테스터의 실력과도 맞먹는 수준이었다고 덧붙였다.

이 프로그램은 테스트 사전에는 규칙을 알지 못했으며, 최고점을 만들기 위해 이전 게임 세션으로부터 학습하는 능력을 갖췄다. 사람의 사고와 학습 방식을 구현하기 위한 용도인 이 알고리즘은 비디오 핀볼(Video Pinball) 및 벽돌 깨기 게임(Breakout)을 포함한 게임에서 나은 성능을 보였다.

딥마인드 과학자들은 AI 시스템을 학습시키기 위한 동기 부여로 보상을 제공하는 강화 학습을 활용했다. 이들은 점점 더 추상적으로 변모하는 데이터를 표현하기 위해 여러 전산층을 사용하는 심화신경망(Deep Neural Network)을 결합했다.

이 팀은 유튜브 영상을 보고 스스로 조리법을 익힌 로봇을 개발한 매릴랜드 대학교 과학자들과 비슷한 방식으로 DQN(Deep Convolutional Network, 심화 나선형 네트워크)로 알려진 생물학적 아키텍처에 주력했다.

DQN 알고리즘은 STG 게임, 권투 시합, 3D 자동차 레이스를 포함한 여러 게임에서 잘 동작했다. 이 알고리즘은 49개 게임 가운데 29개에서 사람이 획득한 점수의 75%가 넘는 기록을 세우기도 했다.

그러나 이 알고리즘은 수차례 게임 세션을 진행해야지만 전략을 학습할 수 있었다. 벽돌 깨기 게임 600회를 플레이하고 나서 플레이어가 파괴해야 하는 벽돌을 뚫는 승리 전략을 학습했다.

최소한의 입력값으로 비디오 게임을 학습한 사례가 이번이 처음은 아니며, DQN은 오랜 시간 플레이 전략을 세워야 하는 몬테주마의 복수(Montezuma's Revenge)와 같은 게임에서는 상당히 형편없었다.

그러나 연구자들은 단일 아키텍처가 여러 가지 게임 요소를 만났을 때 학습하고 적응한 의미있는 사례라고 언급했다. 그들은 일반적인 목적의 인공지능 프로그램을 효과적으로 설계하기 위해 한 단계 더 나아간 것으로 내다봤다.

이들은 논문에서 “종합하자면, DQN은 수많은 어려운 작업을 완전히 익히기 위해 학습 능력을 갖춘 에이전트를 만드는 생물학적인 메커니즘을 갖췄으며 최신 머신러닝 기술이 가진 힘을 보여준다”고 설명했다. editor@itworld.co.kr 


2015.02.27

구글 딥마인드, 게임법을 스스로 터득하는 'DQN' 개발

Tim Hornyak | PCWorld
지난해 구글이 인수한 인공지능 업체 딥마인드(DeepMind)가 클래식 아타리(Atari) 비디오 게임 플레이를 스스로 학습하는 인공지능 프로그램인 DQN(Deep Q-network)를 개발했다. DQN은 점수와 픽셀 디스플레이를 입정 정보로 활용하여 아타리 2600 비디오 게임을 플레이하는 법을 스스로 터득한다.

해당 연구는 네이처(Nature) 저널에 실렸으며, 데미스 하사비스를 비롯한 구글 딥마인드 공동 연구자들은 이 프로그램은 테스트를 진행한 49개의 게임 대다수에서 이전 알고리즘보다도 더 나은 성능을 보였다고 언급했다. 또한, 전문적인 게임 테스터의 실력과도 맞먹는 수준이었다고 덧붙였다.

이 프로그램은 테스트 사전에는 규칙을 알지 못했으며, 최고점을 만들기 위해 이전 게임 세션으로부터 학습하는 능력을 갖췄다. 사람의 사고와 학습 방식을 구현하기 위한 용도인 이 알고리즘은 비디오 핀볼(Video Pinball) 및 벽돌 깨기 게임(Breakout)을 포함한 게임에서 나은 성능을 보였다.

딥마인드 과학자들은 AI 시스템을 학습시키기 위한 동기 부여로 보상을 제공하는 강화 학습을 활용했다. 이들은 점점 더 추상적으로 변모하는 데이터를 표현하기 위해 여러 전산층을 사용하는 심화신경망(Deep Neural Network)을 결합했다.

이 팀은 유튜브 영상을 보고 스스로 조리법을 익힌 로봇을 개발한 매릴랜드 대학교 과학자들과 비슷한 방식으로 DQN(Deep Convolutional Network, 심화 나선형 네트워크)로 알려진 생물학적 아키텍처에 주력했다.

DQN 알고리즘은 STG 게임, 권투 시합, 3D 자동차 레이스를 포함한 여러 게임에서 잘 동작했다. 이 알고리즘은 49개 게임 가운데 29개에서 사람이 획득한 점수의 75%가 넘는 기록을 세우기도 했다.

그러나 이 알고리즘은 수차례 게임 세션을 진행해야지만 전략을 학습할 수 있었다. 벽돌 깨기 게임 600회를 플레이하고 나서 플레이어가 파괴해야 하는 벽돌을 뚫는 승리 전략을 학습했다.

최소한의 입력값으로 비디오 게임을 학습한 사례가 이번이 처음은 아니며, DQN은 오랜 시간 플레이 전략을 세워야 하는 몬테주마의 복수(Montezuma's Revenge)와 같은 게임에서는 상당히 형편없었다.

그러나 연구자들은 단일 아키텍처가 여러 가지 게임 요소를 만났을 때 학습하고 적응한 의미있는 사례라고 언급했다. 그들은 일반적인 목적의 인공지능 프로그램을 효과적으로 설계하기 위해 한 단계 더 나아간 것으로 내다봤다.

이들은 논문에서 “종합하자면, DQN은 수많은 어려운 작업을 완전히 익히기 위해 학습 능력을 갖춘 에이전트를 만드는 생물학적인 메커니즘을 갖췄으며 최신 머신러닝 기술이 가진 힘을 보여준다”고 설명했다. editor@itworld.co.kr 


X