2021.04.16

로봇의 AI에 '안전'을 학습시키는 방법

James Kobielus | InfoWorld
다른 능력처럼 안전(Safety) 또한 로봇 지능에 바탕이 되는 인공 지능(AI)으로 구현하고 트레이닝해야 한다. 자주 사람과 부딪히고, 자율주행 자동차에 탑승한 승객을 위험하게 만들고, 소유자의 허가 없이 온라인에서 제품을 주문하는 로봇을 용납할 사람은 없다.
 
ⓒ Getty Images Bank

대부분의 로봇, 엣지 컴퓨팅, 자율주행 자동차 솔루션이 AI 스마트를 획득해 진화시키는 방식은 통제된 ‘시행 착오(trial and error)’이다. 자율 장치 이면의 두뇌인 AI는 로봇이 배정된 작업을 숙달, 눈에 잘 띄지 않을 정도로 자연스럽게 잘 수행할 수 있도록 도와준다.

로봇 AI에 안전한 작동에 대해 훈련하는 것은 깔끔한 프로세스가 아니다. 로봇이 의도된 결과를 달성하기 위해 일련의 최적화된 행동을 찾을 때 최적의 경로보다 덜 생산적인 경로를 택하게 될 것이기 때문이다. 

AI 트레이닝 방법으로 강화 학습(Reinforcement Learning, RL)을 활용하면, 로봇은 인간을 보호할 수 있는 자동화된 행위, 죽이거나 다치게 만들거나, 기타 위험을 초래할 수 있는 자동화된 행위를 파악할 수 있다.


로봇이 학습해야 할 것들

개발자는 AI가 통합된 로봇을 세상에 출시하기 전 RL 절차에 다음 시나리오를 포함시켜야 한다.

- 지공간 인식: 실제 작동 및 운영 환경은 범용 로봇이 성공적으로 탐색하기에 꽤 까다로울 수 있다. 올바른 RL은 이 경비(보안) 로봇의 AI 알고리즘이 순찰하도록 되어있는 실내 및 실외 환경에서 이동과 관련된 여러 도전 과제들을 학습하도록 도움을 줄 수 있었다. 로봇에 비디오 카메라와 열 영상 장치를 내장하는 것만으로 충분하지 않았다. AI가 많이 훈련되어 있어도 분수로 굴러 떨어진 로봇을 구할 수는 없다.

- 충돌 회피: 로봇은 많은 실제 환경에서 조력자가 될 수 있지만 그만큼의 위험도 초래할 수 있다. 자율주행 자동차에 분명히 적용되는 이야기다. 그러나 여기에 국한되지 않고 사람들이 방심할 수 있는 소매, 사무실, 주거지, 기타 환경 모두와 관련이 있다. 사회는 AI 기반의 안전장치가 모든 로봇에 통합될 것을 기대한다. 유아나 장애인, 기타 다른 사람이 예상하지 못했을 때, 로봇이 우리와 충돌하는 것을 걱정할 필요가 없도록 만들기 위해서다. RL의 주요 도전과제인 충돌 회피는 모든 로봇에 아주 정확한 표준 알고리즘으로 통합돼야 한다. 멀지 않아 대부분 국가에서 법과 규정으로 이를 요구할 가능성이 매우 높다.

- 정황 분류: 로봇은 갈수록 복잡해지는 산업 협업 환경에서 인간과 아주 가까운 거리에서 일을 한다. 이런 협업 가운데 상당수에는 높은 속도와 처리량이 특징이 생산과 관련된 작업이 수반된다. 목숨과 신체에 위험이 초래되지 않도록 만들기 위해, 생산 현장의 로봇을 제어하는 AI에는 사람과 주변의 기계 및 물질들을 신속히 구분할 수 있는 ‘스마트’가 필요하다. 이러한 알고리즘 분류는 다양한 카메라와 센서에서 수집한 3D 데이터를 실시간으로 분석 상관관계를 파악하는 방법으로 이뤄진다. 또 사람 작업자가 다치지 않도록 장치를 정지시키거나 속도를 늦추는 등 자동으로 위험을 경감한다. 훈련시켜야 할 산업용 로봇 제어와 관련된 상황들이 거의 무한대에 달할 정도로 많고, 관련된 사고들 또한 많다는 점을 감안했을 때 여기에 필요한 AI에는 실제 운영과 실제 같은 실험실 시뮬레이션 모두에서 수집한 데이터를 토대로 훈련한 RL이 반영되어야 한다.

- 자해 회피: 스스로나 주변 환경을 파괴하도록 로봇을 프로그래밍하는 경우는 거의 없을 것이다. 그렇지만 RL을 통해 훈련한 로봇은 다양한 선택적 행위들을 탐구할 수 있는 데, 이 가운데 일부가 ‘자해’를 유발할 수 있다. 훈련 과정에 핵심 훈련의 연장선으로 레지듀얼 RL(Residual RL)이라는 방법을 이용해 로봇이 스스로를 파괴하거나, 환경을 불안정하게 만드는 행위를 탐구하는 것을 방지할 수 있다. 이런 자기 보호 훈련 절차가 메인 스트림으로 부상할 수도 있다. 로봇이 사람 운용자와 상호작용을 하는 것을 포함, 주변 환경을 통제하고 제어하는 등 아주 유연해지면서 훈련을 시키지 않으면 스스로와 다른 이들에 위험을 초래할 수 있기 때문이다.

- 인증된 에이전시: 로봇은 우리 이상의 모든 부분에서 디지털 에이전트가 물리적으로 실현된 형태가 되어가고 있다. 여기에 언급된 스마트 스피커는 허가 없이 주문을 하지 못하도록 훈련되었어야 한다. 이 스피커는 실수로 부모 허락 없이 아이가 음성으로 구매를 요청한 것을 그대로 따랐었다. 알고리즘에 기반을 둔 트레이닝 대신 다중 인증으로 처리할 수 있는 부분이지만, 다양한 환경적 상황에서 음성으로 활성화된 로봇은 강력한 인증과 위임된 권한에 사용할 다중인증 방법을 결정할 때 복잡한 알고리즘을 거쳐야 할 수도 있다. RL을 활용, 로봇이 다양한 역동적 작업들을 달성하려 시도하는 많은 사람들을 위한 에이전트로 자신이 봉사하는 환경에서 사용할 가장 적절한 인증, 승인, 위임 절차를 더 빨리 파악하도록 도움을 줄 수도 있다.

- 방어 기동: 로봇은 사람 같은 다른 실체들이 유발할 수 있는 실수, 또는 고의적인 공격에서 살아남는 물체가 되어야 한다. 이 무인 셔틀 버스의 경우, 갑자기 뒤에서 나타난 트레일러와의 충돌을 피하기 위해 반대 방향으로 몇 피트 방향을 트는 등의 회피 동작을 하도록 훈련이 되었어야 했다. 방어 기동은 교통, 공공 안전, 군사 부문에 배치된 로봇에 아주 중요해질 전망이다. 또한 로봇 장치는 배치되는 장소에서 관심을 끌 것이기 때문에 파괴 행위 등으로부터 스스로를 보호할 능력을 갖춰야 한다.

- 협력적 조율: 로봇이 고립된 어시스턴트가 아닌 조직화된 총체로 배치되는 사례가 증가하고 있다. 창고용 로봇의 AI 알고리즘은 서로, 또 해당 환경에 고용된 많은 사람들과 조화롭게 일을 하도록 훈련되어야 한다. 상호작용이 발생할 상황이 많다는 점을 감안하면, 이는 RL에 힘든 도전과제가 된다. 그러나 사회는 영공을 순찰하는 드론, 상품을 배달하는 장치, 사람이 출입하기 너무 위험한 환경을 탐험하는 장치 등 모든 종류의 장치에 이런 기능들을 필수적으로 요구하게 될 것이다.

- 문화적 감수성: 로봇은 문명 사회의 규범에 따라 사람을 존중해야 한다. 로봇의 얼굴 인식 알고리즘이 직면하는 사람들을 차별하지 않고, 비하하지 않고, 기타 둔감하게 추론을 하는 것 등이 포함된다. 고도의 사회적 환경에 로봇을 배치하면서 이 부분이 더욱 중요해질 전망이다. 예를 들어, 트랜스젠더에게 부적절하게 성별을 기반으로 한 인사를 하는 등 사람들에게 불쾌감을 초래하지 않도록 훈련해야 한다. 이런 종류로 구분을 할 수 있도록 만들기란 아주 어렵다. 자동화된 방식으로 무례를 범하지 않도록 RL을 이용해 AI를 훈련시킬 필요성이 높아진다.


안전 요건을 준수하도록 보장

가까운 장래에 로봇 등의 장치가 모든 AI 안전 기준을 충족하는지 증명을 요구하는 이해관계자들의 경우, 이런 요구를 통과하는 데 RL 프로세스에 대한 비디오 감사 로그가 필요할 수도 있다. 또한 로봇이 ‘안전한 탐사(safe exploration)’를 사용하고 있는지 보장하기 위해 제한된 RL에 대한 적합성을 증명해야 할 수도 있다. 2019년 OpenAI 연구 논문이나 2020년 MIT 연구에서 논의되었던 부분들이다.

로봇이 안전하게 작동하도록 훈련을 하는 프로세스는 답답하고, 길고, 지루한 프로세스가 될 수도 있다. 개발자는 힘든 노력을 통해 RL을 발전시켜야 한다. 로봇이 다양한 안전 상황에 부응하는 방식으로 작동할 수 있을 때까지 말이다.

향후 몇 년 이내에 사람들의 생명에 위험을 초래할 수 있는 애플리케이션에 로봇을 활용하는 모든 AI 분야 종사자에게 이런 부분들이 ‘의무 사항’이 될 수도 있다. editor@itworld.co.kr


2021.04.16

로봇의 AI에 '안전'을 학습시키는 방법

James Kobielus | InfoWorld
다른 능력처럼 안전(Safety) 또한 로봇 지능에 바탕이 되는 인공 지능(AI)으로 구현하고 트레이닝해야 한다. 자주 사람과 부딪히고, 자율주행 자동차에 탑승한 승객을 위험하게 만들고, 소유자의 허가 없이 온라인에서 제품을 주문하는 로봇을 용납할 사람은 없다.
 
ⓒ Getty Images Bank

대부분의 로봇, 엣지 컴퓨팅, 자율주행 자동차 솔루션이 AI 스마트를 획득해 진화시키는 방식은 통제된 ‘시행 착오(trial and error)’이다. 자율 장치 이면의 두뇌인 AI는 로봇이 배정된 작업을 숙달, 눈에 잘 띄지 않을 정도로 자연스럽게 잘 수행할 수 있도록 도와준다.

로봇 AI에 안전한 작동에 대해 훈련하는 것은 깔끔한 프로세스가 아니다. 로봇이 의도된 결과를 달성하기 위해 일련의 최적화된 행동을 찾을 때 최적의 경로보다 덜 생산적인 경로를 택하게 될 것이기 때문이다. 

AI 트레이닝 방법으로 강화 학습(Reinforcement Learning, RL)을 활용하면, 로봇은 인간을 보호할 수 있는 자동화된 행위, 죽이거나 다치게 만들거나, 기타 위험을 초래할 수 있는 자동화된 행위를 파악할 수 있다.


로봇이 학습해야 할 것들

개발자는 AI가 통합된 로봇을 세상에 출시하기 전 RL 절차에 다음 시나리오를 포함시켜야 한다.

- 지공간 인식: 실제 작동 및 운영 환경은 범용 로봇이 성공적으로 탐색하기에 꽤 까다로울 수 있다. 올바른 RL은 이 경비(보안) 로봇의 AI 알고리즘이 순찰하도록 되어있는 실내 및 실외 환경에서 이동과 관련된 여러 도전 과제들을 학습하도록 도움을 줄 수 있었다. 로봇에 비디오 카메라와 열 영상 장치를 내장하는 것만으로 충분하지 않았다. AI가 많이 훈련되어 있어도 분수로 굴러 떨어진 로봇을 구할 수는 없다.

- 충돌 회피: 로봇은 많은 실제 환경에서 조력자가 될 수 있지만 그만큼의 위험도 초래할 수 있다. 자율주행 자동차에 분명히 적용되는 이야기다. 그러나 여기에 국한되지 않고 사람들이 방심할 수 있는 소매, 사무실, 주거지, 기타 환경 모두와 관련이 있다. 사회는 AI 기반의 안전장치가 모든 로봇에 통합될 것을 기대한다. 유아나 장애인, 기타 다른 사람이 예상하지 못했을 때, 로봇이 우리와 충돌하는 것을 걱정할 필요가 없도록 만들기 위해서다. RL의 주요 도전과제인 충돌 회피는 모든 로봇에 아주 정확한 표준 알고리즘으로 통합돼야 한다. 멀지 않아 대부분 국가에서 법과 규정으로 이를 요구할 가능성이 매우 높다.

- 정황 분류: 로봇은 갈수록 복잡해지는 산업 협업 환경에서 인간과 아주 가까운 거리에서 일을 한다. 이런 협업 가운데 상당수에는 높은 속도와 처리량이 특징이 생산과 관련된 작업이 수반된다. 목숨과 신체에 위험이 초래되지 않도록 만들기 위해, 생산 현장의 로봇을 제어하는 AI에는 사람과 주변의 기계 및 물질들을 신속히 구분할 수 있는 ‘스마트’가 필요하다. 이러한 알고리즘 분류는 다양한 카메라와 센서에서 수집한 3D 데이터를 실시간으로 분석 상관관계를 파악하는 방법으로 이뤄진다. 또 사람 작업자가 다치지 않도록 장치를 정지시키거나 속도를 늦추는 등 자동으로 위험을 경감한다. 훈련시켜야 할 산업용 로봇 제어와 관련된 상황들이 거의 무한대에 달할 정도로 많고, 관련된 사고들 또한 많다는 점을 감안했을 때 여기에 필요한 AI에는 실제 운영과 실제 같은 실험실 시뮬레이션 모두에서 수집한 데이터를 토대로 훈련한 RL이 반영되어야 한다.

- 자해 회피: 스스로나 주변 환경을 파괴하도록 로봇을 프로그래밍하는 경우는 거의 없을 것이다. 그렇지만 RL을 통해 훈련한 로봇은 다양한 선택적 행위들을 탐구할 수 있는 데, 이 가운데 일부가 ‘자해’를 유발할 수 있다. 훈련 과정에 핵심 훈련의 연장선으로 레지듀얼 RL(Residual RL)이라는 방법을 이용해 로봇이 스스로를 파괴하거나, 환경을 불안정하게 만드는 행위를 탐구하는 것을 방지할 수 있다. 이런 자기 보호 훈련 절차가 메인 스트림으로 부상할 수도 있다. 로봇이 사람 운용자와 상호작용을 하는 것을 포함, 주변 환경을 통제하고 제어하는 등 아주 유연해지면서 훈련을 시키지 않으면 스스로와 다른 이들에 위험을 초래할 수 있기 때문이다.

- 인증된 에이전시: 로봇은 우리 이상의 모든 부분에서 디지털 에이전트가 물리적으로 실현된 형태가 되어가고 있다. 여기에 언급된 스마트 스피커는 허가 없이 주문을 하지 못하도록 훈련되었어야 한다. 이 스피커는 실수로 부모 허락 없이 아이가 음성으로 구매를 요청한 것을 그대로 따랐었다. 알고리즘에 기반을 둔 트레이닝 대신 다중 인증으로 처리할 수 있는 부분이지만, 다양한 환경적 상황에서 음성으로 활성화된 로봇은 강력한 인증과 위임된 권한에 사용할 다중인증 방법을 결정할 때 복잡한 알고리즘을 거쳐야 할 수도 있다. RL을 활용, 로봇이 다양한 역동적 작업들을 달성하려 시도하는 많은 사람들을 위한 에이전트로 자신이 봉사하는 환경에서 사용할 가장 적절한 인증, 승인, 위임 절차를 더 빨리 파악하도록 도움을 줄 수도 있다.

- 방어 기동: 로봇은 사람 같은 다른 실체들이 유발할 수 있는 실수, 또는 고의적인 공격에서 살아남는 물체가 되어야 한다. 이 무인 셔틀 버스의 경우, 갑자기 뒤에서 나타난 트레일러와의 충돌을 피하기 위해 반대 방향으로 몇 피트 방향을 트는 등의 회피 동작을 하도록 훈련이 되었어야 했다. 방어 기동은 교통, 공공 안전, 군사 부문에 배치된 로봇에 아주 중요해질 전망이다. 또한 로봇 장치는 배치되는 장소에서 관심을 끌 것이기 때문에 파괴 행위 등으로부터 스스로를 보호할 능력을 갖춰야 한다.

- 협력적 조율: 로봇이 고립된 어시스턴트가 아닌 조직화된 총체로 배치되는 사례가 증가하고 있다. 창고용 로봇의 AI 알고리즘은 서로, 또 해당 환경에 고용된 많은 사람들과 조화롭게 일을 하도록 훈련되어야 한다. 상호작용이 발생할 상황이 많다는 점을 감안하면, 이는 RL에 힘든 도전과제가 된다. 그러나 사회는 영공을 순찰하는 드론, 상품을 배달하는 장치, 사람이 출입하기 너무 위험한 환경을 탐험하는 장치 등 모든 종류의 장치에 이런 기능들을 필수적으로 요구하게 될 것이다.

- 문화적 감수성: 로봇은 문명 사회의 규범에 따라 사람을 존중해야 한다. 로봇의 얼굴 인식 알고리즘이 직면하는 사람들을 차별하지 않고, 비하하지 않고, 기타 둔감하게 추론을 하는 것 등이 포함된다. 고도의 사회적 환경에 로봇을 배치하면서 이 부분이 더욱 중요해질 전망이다. 예를 들어, 트랜스젠더에게 부적절하게 성별을 기반으로 한 인사를 하는 등 사람들에게 불쾌감을 초래하지 않도록 훈련해야 한다. 이런 종류로 구분을 할 수 있도록 만들기란 아주 어렵다. 자동화된 방식으로 무례를 범하지 않도록 RL을 이용해 AI를 훈련시킬 필요성이 높아진다.


안전 요건을 준수하도록 보장

가까운 장래에 로봇 등의 장치가 모든 AI 안전 기준을 충족하는지 증명을 요구하는 이해관계자들의 경우, 이런 요구를 통과하는 데 RL 프로세스에 대한 비디오 감사 로그가 필요할 수도 있다. 또한 로봇이 ‘안전한 탐사(safe exploration)’를 사용하고 있는지 보장하기 위해 제한된 RL에 대한 적합성을 증명해야 할 수도 있다. 2019년 OpenAI 연구 논문이나 2020년 MIT 연구에서 논의되었던 부분들이다.

로봇이 안전하게 작동하도록 훈련을 하는 프로세스는 답답하고, 길고, 지루한 프로세스가 될 수도 있다. 개발자는 힘든 노력을 통해 RL을 발전시켜야 한다. 로봇이 다양한 안전 상황에 부응하는 방식으로 작동할 수 있을 때까지 말이다.

향후 몇 년 이내에 사람들의 생명에 위험을 초래할 수 있는 애플리케이션에 로봇을 활용하는 모든 AI 분야 종사자에게 이런 부분들이 ‘의무 사항’이 될 수도 있다. editor@itworld.co.kr


X