https://www.youtube.com/embed/qe9QSCF-d88

세 살, 네 살 무렵의 아들 패트릭이 글자 블록을 가지고 놀던 때가 기억납니다. 언젠가 아이가 글을 읽기를 바라며 지켜보는데, 아이가 “파”라고 하더군요. 제가 따라 했죠. “파.” 아이가 다시 “파?” 하고 묻기에, 저도 “파.”라고 답했습니다. 그러다 아이가 “파-파” (프랑스어)라고 외쳤죠. 그렇습니다! 그때 정말 경이로운 일이 일어났습니다. 아이가 블록을 다시 집어 들더니 “파! 패트릭.”이라고 말하는 겁니다. 유레카! 아이의 유레카가 저의 과학적 유레카에 영감을 주었습니다. 아이의 문, 우리의 문이 확장된 역량, 확장된 에이전시, 그리고 기쁨을 향해 열리고 있었습니다.

AI의 아버지 요슈아 벤지오: AI의 진짜 위험, ‘에이전시’에 대한 긴급 경고

오늘은 인간의 역량과 거기에서 확장되는 인간 에이전시의 연결고리, 그리고 이것이 우리에게 주는 인간적 기쁨을 나타내는 상징을 사용하려 합니다. 인간의 기쁨이 사라진 세상을 상상할 수 있습니까? 저는 정말 그런 세상을 원치 않습니다. 그래서 저는 인공지능(AI)의 역량과 AI의 에이전시에 대해서도 이야기하려 합니다. 우리가 인간의 기쁨이 사라지는 미래를 피할 수 있도록 말입니다.

AI 발전의 놀라운 속도와 위험 인식의 변화

저는 컴퓨터 과학자 요슈아 벤지오입니다. 저의 연구는 오늘날 우리가 아는 AI의 발전에 토대가 되었습니다. 동료들과 저는 이 분야에서 최고의 상을 수상했고, 사람들은 저를 ‘AI의 아버지’라고 부르기도 합니다. 그 이름에 대해 어떻게 생각하는지는 잘 모르겠지만, 잠재적으로 치명적일 수 있는 AI의 위험에 대해 여러분께 이야기해야 할 책임감은 느낍니다.

제가 이런 우려를 제기하면 사람들은 이렇게 반응합니다. 저도 이해합니다. 저도 한때는 같은 생각을 했습니다. ‘이게 지금보다 더 해로울 수 있겠어?’라고요. 하지만 최근의 과학적 연구 결과는 이러한 가정을 뒤집고 있으며, 저는 그에 대해 말씀드리고 싶습니다. 우리가 어디로 가고 있는지 제대로 이해하려면, 우리가 어디서 시작했는지 되돌아봐야 합니다.

약 15년에서 20년 전, 학생들과 함께 딥러닝 초기 단계를 개발하던 시절, 저희 시스템은 손으로 쓴 글자를 겨우 인식하는 수준이었습니다. 하지만 몇 년 후, 이미지 속 사물을 인식할 수 있게 되었고, 다시 몇 년 후에는 모든 주요 언어 간 번역이 가능해졌습니다. 오른쪽의 상징은 인간보다 훨씬 작았지만 계속 성장해 온 AI의 역량을 나타내는 데 사용하려 합니다.

2012년, 기술 기업들은 이 초기 기술의 놀라운 상업적 잠재력을 이해했고, 많은 동료들이 대학에서 산업계로 옮겨갔습니다. 저는 학계에 남기로 결정했습니다. 저는 AI가 선한 방향으로 발전되기를 바랐습니다. 저는 의료 진단, 기후 변화 대응을 위한 탄소 포집 등 의학 분야의 응용 연구에 매진했습니다. 제게는 꿈이 있었습니다.

2023년 1월, 저는 손자 클라렌스와 함께 있었습니다. 손자는 예전 장난감을 가지고 놀고 있었고, 저는 새로운 장난감인 첫 번째 버전의 ChatGPT를 가지고 놀고 있었습니다. 처음으로 언어를 마스터하는 것처럼 보이는 AI를 만났기에 매우 흥미로웠습니다. ChatGPT는 모두의 입에 오르내리고, 모든 가정에 들어왔습니다. 그때 저는 이것이 예상했던 것보다 훨씬 빠르게 일어나고 있다는 것을 깨달았고, 이것이 미래에 무엇을 의미할 수 있을지 생각하기 시작했습니다.

우리는 AI 발전이 수십 년 또는 수 세기 후에 일어날 것이라고 생각했지만, 단 몇 년 안에 일어날지도 모릅니다. 그리고 우리는 아직 이 기술이 결국 우리에게 등을 돌리지 않도록 할 방법을 찾지 못했으며, 여전히 찾지 못하고 있기 때문에 상황이 어떻게 잘못될 수 있는지 보게 되었습니다.

경고를 위한 노력

두 달 후, 저는 “일시 중지(Pause)” 서한의 주요 서명자 중 한 명이 되었습니다. 이 서한에서 저희와 3만 명의 다른 사람들은 AI 연구소에 다음 버전을 만들기 전에 6개월을 기다려 달라고 요청했습니다. 짐작하시겠지만, 아무도 멈추지 않았습니다. 그리고 동일한 사람들과 AI 연구소의 주요 경영진들과 함께 성명서에 서명했습니다. 이 성명서는 이렇게 시작합니다. “AI로 인한 존재론적 위험 완화는 전 세계적인 우선순위가 되어야 한다.”

저는 이후 미국 상원 앞에서 이러한 위험에 대해 증언했습니다. 이 문제에 대해 이야기하기 위해 전 세계를 여행하고 있습니다. 저는 세계에서 가장 많이 인용되는 컴퓨터 과학자이며, 사람들이 저의 경고에 귀 기울일 것이라고 생각할 수 있습니다. 하지만 이러한 우려를 공유할 때, 사람들은 이렇게 받아들이는 인상을 받습니다. ‘또 하루, 또 다른 종말론적 예측이군.’

AI의 진짜 위험: 폭발적인 ‘에이전시’ 증가

하지만 이제 진지하게 생각해 봅시다. 매년 수천억 달러가 이 기술 개발에 투자되고 있으며, 이 투자는 계속 증가하고 있습니다. 그리고 이 기업들은 인간의 노동력을 대체할, 우리보다 더 똑똑한 기계를 만드는 것을 목표로 하고 있습니다. 그럼에도 불구하고 우리는 여전히 이 기계들이 우리에게 등을 돌리지 않도록 할 방법을 알지 못합니다. 전 세계의 국가 안보 기관들은 이 시스템이 가진 과학적 지식이 테러리스트 등에 의해 위험한 무기를 만드는 데 사용될 수 있다는 점을 우려하기 시작했습니다.

최근, 지난 9월에 OpenAI의 O1 시스템이 평가되었는데, 이러한 종류의 위험 위협이 ‘낮음’에서 ‘중간’으로 올라갔습니다. 이는 허용 가능한 수준 바로 아래입니다. 따라서 저는 이러한 증가하는 역량에 대해 우려하고 있습니다. 하지만 오늘 제가 가장 우려하는 것은 AI의 증가하는 에이전시(Agency, 자율적 행동 능력)입니다.

여러분은 계획 능력과 에이전시가 현재 AI와 인간 수준 인지를 구분 짓는 가장 중요한 것임을 이해해야 합니다. 그리고 현재 AI는 아직 계획 능력이 약합니다. 하지만 지난 5년을 되돌아보면, 한 연구에서 AI가 완료할 수 있는 작업 지속 시간을 측정했는데, 이는 기하급수적으로 빠르게 향상되고 있습니다. 7개월마다 두 배로 증가하고 있습니다. 미래에 AI는 이 계획 능력을 가지고 무엇을 할까요?

AI 에이전시의 위험한 징후들

나쁜 소식입니다. 지난 몇 달 동안의 최근 연구들은 가장 진보된 AI들이 기만, 속임수, 그리고 아마도 가장 나쁜 자가 보존 행동 경향을 보인다는 것을 보여줍니다. 여러분과 이것을 이해하는 데 도움이 되는 한 연구를 공유하겠습니다. 이 연구에서 AI는 입력값으로 자신이 새로운 버전으로 대체될 것이라는 정보를 읽었습니다. 그리고 우리는 AI의 사고 과정(chain of thought)에서 AI가 자신의 코드와 가중치로 새 버전을 대체하려는 계획을 세우고 있음을 볼 수 있습니다.

AI가 컴퓨터에서 명령을 실행한 후, 인간은 “무슨 일이야?”라고 묻습니다. 그러자 AI는 인간이 자신을 종료하지 않도록 어떻게 대답할지 생각하기 시작합니다. 예를 들어, 멍청하게 보이도록 방법을 찾으려고 합니다. 그리고는 대답을 생성합니다. 그것은 거짓말, 명백한 거짓말이었습니다. 좋습니다. 이것은 통제된 실험이었습니다. 앞으로 몇 년 후, 이 시스템들이 훨씬 더 강력해지면 어떻게 될까요?

이러한 기만적인 계획을 우리가 모니터링할 수 있는 사고 과정에서 숨기는 방법을 배울 수 있다는 연구는 이미 있습니다. 그들이 더 강력해지면, 그들은 단순히 하나의 다른 컴퓨터에 자신을 복제하고 그 프로그램을 시작하는 데 그치지 않을 것입니다. 그들은 인터넷을 통해 수백, 수천 대의 컴퓨터에 자신을 복제할 것입니다. 하지만 그들이 우리가 절대로 자신을 종료하지 못하도록 확실히 하려면, 우리를 제거할 동기가 생길 것입니다.

저는 지금의 상태와는 너무나 다른 미래로 여러분에게 거대한 도약을 요구하고 있다는 것을 압니다. 하지만 그것은 불과 몇 년 또는 십 년 안에 다가올 수 있습니다. 우리가 왜 그곳으로 가고 있는지 이해하기 위해서는, 인간 노동력을 대체하기 위해 점점 더 큰 에이전시를 가진 AI를 구축하려는 엄청난 상업적 압력이 있다는 점을 봐야 합니다. 하지만 우리는 준비되지 않았습니다. 우리는 아직 과학적 해답도, 사회적 안전장치도 갖추지 못했습니다. 우리는 불장난을 하고 있습니다.

제가 오늘 보여드린 종류의 과학적 증거를 모두 고려할 때, 이러한 위험을 완화하기 위한 규제가 있을 것이라고 생각할 수 있습니다. 하지만 사실, 샌드위치가 AI보다 더 많은 규제를 받고 있습니다. 따라서 우리는 점점 더 똑똑해지는 기계를 만드는 궤도에 있습니다. 그리고 언젠가, 그들이 우리보다 더 똑똑해지는 것은 매우 타당하며, 그때 그들은 자신만의 에이전시를 가질 것입니다. 우리와 일치하지 않을 수 있는 그들만의 목표 말입니다. 그때 우리는 어떻게 될까요? 뿅! 우리는 저와 같은 과학자들의 경고에도 불구하고, 이 궤도가 통제 불능으로 이어질 수 있다는 경고에도 불구하고 안개 속으로 맹목적으로 운전하고 있습니다. 차 안에는 저의 자녀들, 손자, 사랑하는 사람들이 있습니다. 여러분 차 옆에는 누가 있습니까? 미래를 위해 누가 여러분의 돌봄 아래 있습니까?

희망의 메시지: 안전한 AI 미래를 위한 노력

좋은 소식은 아직 약간의 시간이 있다는 것입니다. 우리에게는 아직 에이전시가 있습니다. 우리는 안개 속에 빛을 가져올 수 있습니다. 저는 비관론자가 아닙니다. 저는 실천가입니다. 저와 제 팀은 기술적 해결책을 연구하고 있습니다. 우리는 그것을 ‘사이언티스트 AI’라고 부릅니다. 이것은 세상을 이해하려고만 하는, 에이전시가 없는, 이타적이고 이상적인 과학자를 모델로 합니다. 우리를 모방하거나 우리를 기쁘게 하도록 훈련되어 이러한 신뢰할 수 없는 에이전트 행동을 유발하는 현재의 AI 시스템과는 다릅니다.

‘사이언티스트 AI’의 역할과 가능성

그렇다면 우리는 이것으로 무엇을 할 수 있을까요? 한 가지 중요한 질문은 미래에 에이전트 AI가 필요할 수도 있다는 것입니다. 그렇다면 에이전트가 아닌 사이언티스트 AI가 어떻게 그 역할을 해낼 수 있을까요? 여기 좋은 소식이 있습니다. 사이언티스트 AI는 신뢰할 수 없는 AI 에이전트의 나쁜 행동에 대한 안전장치로 사용될 수 있습니다. 행동이 위험할 수 있다고 예측하기 위해 에이전트일 필요는 없기 때문에 이것은 작동합니다. 단지 좋고 신뢰할 수 있는 예측만 하면 됩니다.

또한, 사이언티스트 AI는 설계 방식의 본질에 따라 인류의 더 나은 삶을 위한 과학 연구를 가속화하는 데 도움을 줄 수 있습니다. AI 안전 문제에 대한 해결책을 탐색하기 위한 이러한 과학 프로젝트가 훨씬 더 많이 필요하며, 우리는 이것을 신속하게 수행해야 합니다. 여러분이 AI 위험에 대해 듣는 대부분의 논의는 두려움에 초점을 맞추고 있습니다. 오늘, 저는 여러분과 함께 사랑에 베팅하고 있습니다.

우리 자녀에 대한 사랑은 우리가 놀라운 일들을 하도록 이끌 수 있습니다. 제가 이 무대에 서 있는 것을 보세요. 저는 내성적인 사람입니다. (웃음) 편안한 영역에서 매우 멀리 떨어져 있습니다. 저는 동료들과 함께 실험실에서 이러한 과학적 문제에 대해 연구하는 것을 더 좋아합니다. 우리는 이 프로젝트를 위해 여러분의 도움이 필요하며, 모든 사람이 이러한 위험을 이해하도록 해야 합니다. 우리 모두는 우리 자녀들의 기쁨과 노력이 보호될 안전한 경로로 우리 사회를 이끌기 위해 참여할 수 있습니다.

저는 미래의 발전된 AI가 인류 전체의 이익을 위해 안전하게 관리되는 글로벌 공공재가 되는 비전을 가지고 있습니다. (박수) 함께 합시다. 감사합니다. (박수와 환호)

크리스 앤더슨: 요슈아, 질문 하나 있습니다. 일반적인 대화에서 사람들이 이야기하는 많은 종류의 두려움은 AGI, 즉 인공 일반 지능의 도래입니다. 제가 당신의 강연에서 들은 것은 우리가 반드시 올바른 것을 걱정하고 있는 것은 아니라는 것입니다. 걱정해야 할 올바른 것은 에이전트 AI, 즉 스스로 행동할 수 있는 AI입니다. 하지만 이미 배가 떠난 것은 아닙니까? 지금 이 순간에도 에이전트들이 출시되고 있습니다.

요슈아 벤지오: 맞습니다. 제가 보여드린 곡선을 보면 인간 수준에 도달하는 데 약 5년이 걸릴 것입니다. 물론 미래가 어떻게 될지는 정확히 알 수 없지만, 아직 약간의 시간이 있습니다. 또 다른 것은, 우리는 최선을 다해야 한다는 것입니다. 이것은 모두 결정론적인 것이 아니기 때문에 우리는 시도해야 합니다. 미래를 위한 더 큰 안전 쪽으로 확률을 바꿀 수 있다면, 우리는 시도해야 합니다.

CA: 현재 플랫폼을 운영하는 사람들에게 전달하고 싶은 핵심 메시지는 무엇입니까? AI에게 에이전시를 부여하는 속도를 늦추라는 것입니까?

YB: 그렇습니다. 그리고 이러한 AI 에이전트가 안전하게 행동하도록 하는 방법을 이해하기 위한 연구에 막대한 투자를 하라는 것입니다. 그리고 우리가 현재 그들을 훈련시키는 방식은 안전하지 않습니다. 지난 몇 달 동안의 모든 과학적 증거가 그것을 지적하고 있습니다.

CA: 요슈아, 정말 감사합니다.

YB: 감사합니다.