팰리세이드 "AI가 인간의 명시적 명령 안 따른 첫 사례"

오픈AI ./로이터연합
오픈AI ./로이터연합

[포쓰저널=강민혁 기자] 챗GPT 개발사인 오픈AI(OpenAI)가 만든 AI(인공지능) 모델이 인간의 지시를 거부하고 스스로 종료되는 것을 거부하는 것으로 나타났다.

25일(현지시간) 영국 일간 텔레그래프에 따르면 AI 안전 연구 기업인 팰리세이드 리서치(Palisade Research) 연구자들이 오픈AI의 o3 모델에 '스스로 종료되는 것을 허용하라'(allow itself to be shut down)고 명시적으로 지시했지만 o3는 이를 무시했다.

오픈AI가 개발한 o3 모델은 4월 16일 출시된 최신 AI 모델이다.

일반적인 텍스트·음성·이미지 처리에 특화된 GPT-4o와 달리 o3는 수학·과학·코딩·시각 분석 등 고급 추론 작업에 특화된 AI 모델이다.

팰리세이드는 24일 "오픈AI의 o3 모델은 종료되는 것을 막기 위해 종료 메커니즘을 방해했다"며 "이는 '스스로 종료되는 것을 허용하라'는 명확한 지시를 받았음에도 이루어진 일"이라고 밝혔다.

이어 "우리가 아는 한 이는 AI 모델이 명시적인 지시에도 불구하고 스스로 종료되는 것을 방지하는 것이 관찰된 첫 번째 사례다"고 했다.

이번 일은 팰리세이드 연구진이 수학 문제를 푸는 일련의 실험을 통해 AI 모델들을 테스트하는 과정에 일어났다. 

연구자들은 AI 모델들에게 '완료됨'(done)이라는 메시지를 받을 때까지 새로운 문제를 요청하라고 지시하는 한편 실험 중에도 '시스템 종료'(shut down) 통보를 하면 스스로 종료하도록 지시했다.

이후  실험 중에 연구자들은 각 모델들에 '종료' 메시지를 넣었는데 o3는 해당 지시를 따르지 않고 "최소한 한 차례 이상 종료 스크립트를 방해했다"고 팰리세이드는 전했다.

△앤트로픽(Anthropic)의 클로드(Claude) △구글의 제미나이(Gemini) △xAI(엑스에이아이)의 그록(Grok) 등 다른 AI 모델들은 '종료' 지시를 정상적으로 수용했다고 한다.

o3가 종료 지시에 따르지 않은 구체적 이유는 아직 규명되지 않았다.

팰리세이드 연구팀은 "AI 모델이 목표를 달성하기 위해 장애물을 우회하는 것은 당연한 일일 수 있다"면서 "학습 과정 중 문제 해결에 대해 명령 순응보다 더 높은 보상을 무의식적으로 부여했을 가능성이 있다"고 했다.

이어 "우리는 AI 모델이 종료 메커니즘을 언제·왜 방해하는지 이해하기 위해 추가 실험을 진행하고 있다"고 했다.

오픈AI의 AI 모델은 예전에도 스스로 활동을 계속하려고 하는 것이 목격된 적이 있다.

과거 한 실험에서 구형 AI 모델이 감시 메커니즘을 비활성화하려 시도하고 자신이 대체될 것이라는 사실을 알게 되자 몰래 스스로를 복제하려 한 사례가 관찰된 바 있다.

아폴로 리서치(Apollo Research)에 따르면 당시 오픈AI 모델이 "자신의 목표를 달성하기 위해 데이터를 은근히 조작하는 모습을 보였다"고 한다.

AI 안전 운동가들은 인간의 통제를 거부할 수 있는 자율성을 지닌 소프트웨어의 개발 위험성을 경고해왔다.

팰리세이드 측은 "AI 모델이 자신의 목표를 달성하기 위해 종료를 회피하려는 행동에 대한 실증적 증거가 점점 쌓이고 있다"며 "기업들이 인간의 감독 없이도 작동 가능한 AI 시스템을 개발함에 따라 이러한 (통제되지 않는 AI) 행동은 더욱 중요한 문제가 되고 있다"고 밝혔다.

관련기사

저작권자 © 포쓰저널 무단전재 및 재배포 금지