'올씽스 오픈 2024' 컨퍼런스에서 공개된 오픈소스 AI 정의(Open Source AI Definition, OSAID) 1.0 버전에 대해 OSI는 “오픈소스 정의가 소프트웨어 생태계를 위해 해온 것과 유사하게 AI 실무자를 위해 허가가 필요없는 실용적이고 단순화된 협업을 재창조할 수 있는 일련의 원칙을 수립하는 프로젝트의 첫 번째 안정 버전”이라고 설명했다.
오픈소스 AI 정의에는 마이크로소프트, 구글, 아마존, 메타, 인텔, 삼성 등 주요 업체와 모질라 재단, 리눅스 재단, 아파치 소프트웨어 재단, 유엔 국제전기통신연합 등 25개 이상의 단체가 공동 설계 과정에 참여했으며, 이미 전 세계의 수많은 단체로부터 지지를 받았다.
스탠퍼드대학 기초 모델 연구 센터(Center for Research on Foundation Models)의 디렉터 퍼시 리앙은 OSAID를 지지하는 성명에서 “데이터에 대한 제한이 있기 때문에 적절한 오픈소스 정의를 내리는 것은 어려운 일이지만, v1.0 정의에서 최소한 (모델 품질의 주요 동인이 되는) 데이터 처리의 전체 코드가 오픈소스여야 한다는 것을 알게 되어 기쁘다”고 말했다. 또 “악마는 디테일에 있으므로, 이 정의를 모델에 적용하려는 사람들의 구체적인 사례가 나오면 더 많은 이야기를 할 수 있을 것 같다”고 덧붙였다.
OSI는 자신들의 방법론이 원래의 목적에 부합하는 표준을 만들어냈다고 확신한다고 말했다.
OSI 이사회 의장 카를로 피아나는 발표문을 통해 “OSAID 1.0 버전으로 이어진 공동 설계 프로세스는 잘 개발되고 철저하며 포용적이고 공정했다”며, “이번 정의는 이사회가 제시한 원칙을 준수했으며, OSI 리더십과 직원들도 이사회의 지침을 충실히 따랐다. 이사회는 이 과정을 통해 오픈소스 정의와 4가지 자유에 정의된 오픈소스 표준을 충족하는 정의가 도출되었다고 확신하며, 이 정의가 전체 산업에 의미 있고 실용적인 오픈소스 지침을 제공하는 데 있어 OSI가 어떻게 자리매김할지 기대가 크다"고 밝혔다.
오픈소스 AI 시스템을 위한 네 가지 기준
OSAID는 오픈소스 AI가 되려면 시스템이 자유 소프트웨어(Free Software) 정의에서 파생된 네 가지 기준을 충족해야 한다고 명시하고 있다.- 어떤 목적으로든 허가를 요청할 필요 없이 시스템을 사용할 수 있어야 한다.
- 시스템 작동 방식을 연구하고 구성 요소를 검사할 수 있다.
- 출력 변경을 포함해 어떤 목적으로든 시스템을 수정할 수 있다.
- 다른 사람이 어떤 목적으로든 수정 여부를 불문하고 사용할 수 있도록 시스템을 공유한다.
또한 OSAID는 “이런 자유는 완전한 기능을 갖춘 시스템과 시스템의 개별 요소에 모두 적용된다. 이런 자유를 행사하기 위한 전제 조건은 시스템을 수정하기 위해 선호하는 양식에 액세스할 수 있어야 한다는 것이다”라고 정의했다. 또한 OSAID는 머신러닝 시스템을 수정할 때 선호하는 양식을 설명하며 포함할 데이터 정보, 코드 및 매개변수를 명시하고 있다.
그러나 OSAID는 “모델 매개변수를 모든 사람이 자유롭게 사용할 수 있도록 보장하기 위한 특정 법적 메커니즘을 요구하지 않는다. 이런 매개변수는 본질적으로 자유로울 수도 있고, 자유를 보장하기 위해 라이선스나 기타 법적 수단이 필요할 수도 있다. 법 체계가 오픈소스 AI 시스템을 다룰 기회가 더 많아지고 시간이 지나면 더 명확해질 것으로 예상한다”라고 단서를 달았다.
오픈소스 AI를 위한 자체 규격을 보유한 넥스트클라우드(Nextcloud)도 OSAID를 지지하고 있으며, 자사 규격에 포함시킬 계획이다. 넥스트클라우드의 CEO 프랭크 칼리첵은 “AI 솔루션 사용자는 투명성과 통제권을 가질 자격이 있으며, 이것이 바로 2023년 초에 윤리적 AI 등급을 도입한 이유다. 이제 우리는 오픈소스 AI라는 용어를 도용하려는 거대 기술 기업을 목격하고 있다. 우리는 사용자와 시장을 보호하기 위해 커뮤니티에서 오픈소스 AI에 대한 명확한 정의를 만드는 것을 전적으로 지지한다”고 밝혔다
남은 의문과 우려 사항
하지만 인포테크 리서치 그룹의 대표 리서치 디렉터 브라이언 잭슨은 몇 가지 우려를 표명했다. 잭슨은 “OSI가 오픈소스 AI 표준으로 간주하는 것에 대한 개요를 읽으면서 몇 가지 큰 질문이 떠올랐다"라며, “OSI의 표준은 명확하고 이전의 오픈소스 소프트웨어 릴리즈 표준과 일관성이 있다. AI에는 학습 데이터, 모델 가중치, 기존 오픈소스 소프트웨어 라이선스에서는 다루지 않는 새로운 아키텍처 등 몇 가지 주요 차이점이 있다. 그렇기 때문에 이런 표준이 필요하다”라고 긍정적인 평가를 했다.하지만 잭슨은 의료 데이터와 마찬가지로 모델이 학습 데이터를 보류할 수 있다는 점을 언급했다. 데이터를 릴리즈하는 것이 불법이더라도 모델은 여전히 오픈소스가 될 수 있다는 것. 잭슨은 “그 논리를 받아들인다”면서도 “하지만 저작권으로 보호되는 콘텐츠가 학습 데이터에 포함되는 문제는 해결되지 않는다”고 지적했다.
또한 딥페이크와 사용자가 사람의 사진을 찍어 가짜 누드 이미지를 생성하는 '누디파이' 앱 등 오픈소스 AI로 인해 발생할 수 있는 피해에 대해서도 우려를 표했다.
잭슨은 “우리는 이미 오픈소스 AI로 인한 실제 피해를 목격했다. 아동 성학대 자료(CSAM)는 오픈소스 AI가 악의적으로 사용된 사례 중 하나다. 인터넷 감시 재단은 이 자료를 거래하는 다크웹 포럼의 활동이 증가하고 있으며, 제작자들은 더 정확한 결과를 얻기 위해 오픈소스 이미지 생성 모델을 선호한다고 보고했다. 또한, 오픈소스 AI를 이용한 악의적 행위자의 사기 행위도 피해를 유발할 수 있다. 이런 모델은 그럴듯한 딥페이크 생성, 피싱 메시지 맞춤화, 취약점이 있는 사용자에 대한 자동 검색에 더 유용하게 수정될 수 있다”고 설명했다.
공동 설계자들은 크게 우려하지 않는다. 모질라의 AI 전략 책임자인 아야 브데르는 “새로운 정의는 오픈소스 모델이 '숙련된 사람이 동일하거나 유사한 데이터를 사용해 실질적으로 동등한 시스템을 재창조할 수 있도록' 훈련 데이터에 대한 충분한 정보를 제공하도록 요구하며, 이는 오늘날 많은 독점적 또는 표면적으로 오픈소스 모델이 하는 것보다 더 나아간 것"이라고 평가했다. 또 “이는 AI 학습 데이터 처리 방식의 복잡성을 해결하는 출발점으로, 전체 데이터 세트 공유의 어려움을 인정하는 동시에 공개 데이터 세트를 AI 생태계의 더 일반적인 부분으로 만들기 위해 노력한다. 오픈소스의 AI 학습 데이터에 대한 이런 관점은 완벽한 것은 아니지만, 어떤 모델 빌더도 실제로 충족하지 못할 이념적으로 깨끗한 종류의 금과옥조 같은 표준을 고집하는 것은 결국 역효과를 낳을 수 있다"고 말했다.
OSI는 OSAID v1.0에 만족하고 있으며, 이를 향후 작업의 출발점으로 보고 있다.
OSI 전무이사 스테파노 마풀리는 성명에서 “OSAID 버전 1.0에 도달하는 것은 새로운 도전으로 가득 찬 힘든 여정이었다”라며, “서로 다른 의견과 미지의 기술적 영역으로 가득 찬 이 섬세한 과정과 때때로 격렬한 의견 교환에도 불구하고, 2년의 과정을 시작할 때 설정한 기대에 부합하는 결과를 도출했다. 이는 광범위한 오픈소스 커뮤니티와 함께 OSAID v.1.0을 읽고 적용할 수 있는 지식을 개발하면서 시간이 지남에 따라 정의를 개선하기 위해 커뮤니티와 지속적으로 소통하려는 노력의 출발점이다”라고 강조했다.
editor@itworld.co.kr