오픈AI는 챗GPT를 (먼저 나온 모델인) 인스트럭트GPT와 아주 흡사한 방법으로 훈련시켰다. '인간의 피드백을 이용한 강화학습(RLHF)'이라는 이 방법이 챗GPT의 비결이었다. 말하자면, 원하는 대로 내뱉는 경향이 있는 대규모 언어모델(LLM, GPT-3.5도 여기에 속한다)이 내놓은 대답들을 살펴보면서 인간 사용자가 실제로 원하는 답이 뭔지를 골라 알려주는 식으로 가르치는 식이다.

얀 레이키: 우리는 많은 사람을 동원해서 챗GPT에게 주는 질문과 대답을 읽게 했고, 그렇게 해서 나온 답변들 중에서 더 나은 것을 고르게 했다. 그리고 이 모든 데이터는 다시 AI를 훈련시키는 데 사용했다. 대부분은 우리가 인스트럭트GPT를 훈련시킬 때 사용했던 것이다.

우리는 AI 챗봇이 사용자에게 도움이 되기를 바라고, 사실을 말하기를 원하며, 해롭지 않은 답을 산출했으면 한다. 그런데 대화를 만들어내거나 보조 역할을 하기 위해 필요한 것들이 있다. 가령, 사용자의 질문이 분명하지 않으면 후속 질문을 해야 한다. 그리고 사용자가 혹시 다른 AI 시스템은 아닌지 확인해야 한다. 스스로 가지지 않은 정체성을 가진 것처럼 행동해서도 안되고, 가지지 않은 능력을 가진 것처럼 주장해서도 안되며, 수행하면 안 되는 요구가 들어오면 거부하는 메시지를 써야 한다. 이런 훈련 중에 등장한 표현 중 하나가 "저는 오픈AI의 훈련을 거친 언어 모델로서..."라는 말이었다. 우리가 직접 써넣은 것은 아니었는데 AI의 대답을 평가하던 사람들이 높은 점수를 준 것이다.

2019년 오픈AI 직원들 (사진 출처: 오픈AI 블로그)

산디니 아가르왈: 나도 그렇게 생각한다. 대답을 평가하는 사람들이 사용하도록 건네준 다양한 기준들이 있다. 가령 진실성이 그런 기준의 하나다. 하지만 그들은 (주어진 기준이 아니더라도) 자기가 생각하기에 모범으로 삼을 만하다 싶은 것들을 채택하기 시작했다. AI가 자신의 정체성을 속이는 말을 하지 않는 게 그런 예다.

챗GPT는 오픈AI가 이전에 사용했던 것과 동일한 기술을 사용해서 만들어졌기 때문에 개발팀은 이 모델을 일반에 공개하기 위해 준비하는 과정에서 이전과 다른 작업은 전혀 하지 않았다. 이전 모델을 위해 정해둔 기준이면 충분하다고 느꼈기 때문이다.

산디니 아가르왈: 우리는 챗GPT의 출시를 준비하면서 이 모델이 완전히 새로운 위험요소를 갖고 있다고는 생각하지 않았다. GPT-3.5는 이미 나와있었고, 우리는 그게 충분히 안전하다는 걸 알고 있었다. 챗GPT는 사람들이 원하는 게 뭔지를 깨닫도록 훈련하는 과정에서 사용자의 요구를 거절하는 법을 자연스럽게 습득했고, 많은 요구를 거절하고 있었다.  

얀 레이키: 그런 훈련에 더해서 우리는 "레드팀(red team)"으로 챗GPT를 테스트했다. 오픈AI 직원들이 모두 모여 앉아 이 모델이 실수를 할 때까지 밀어붙이는 것이다. 사내에서만 한 것도 아니다. 외부인으로 구성된 팀들도 같은 작업을 했다. 또한 신뢰할 수 있는 사용자들을 선발해서 초기 접근권을 주고 사용하게 한 후 피드백을 받았다.  

산디니 아가르왈: 그러는 과정에서 우리가 원치 않는 대답을 챗GPT가 내놓는 것을 목격하기도 했지만 그건 GPT-3.5가 원래 만들어내던 것들이었다. 앞서 말한 것처럼 우리는 애초에 챗GPT를 우리 연구의 프리뷰(research preview)로 여겼기 때문에 그 정도는 괜찮다고 생각했다.

존 슐먼: 시스템이 완벽해질 때까지 출시를 미룰 수는 없다. 우리는 이전 버전의 베타 테스트를 몇 달 동안 진행했고, 베타 테스트를 진행한 사람들은 이 제품에 긍정적인 반응을 보였다. 우리의 가장 큰 관심사는 챗GPT의 정확성(factuality)이었다. 이런 모델들이 원래 없는 얘기를 지어내기 때문이다.

하지만 인스트럭트GPT를 비롯한 대규모 언어모델들이 이미 세상에 나와있었기 때문에 우리는 챗GPT가 정확성이나 기타 안전 문제에서 그것들보다 낫기만 하다면 발표해도 좋다고 보았다. 우리는 출시 전에 실시한 제한된 사용자들을 대상으로 한 평가에서 챗GPT가 정확성, 안전성 면에서 다른 모델보다 좀 더 나아 보인다고 확인했고, 그래서 출시를 하기로 결정한 것이다.  

Exclusive: The $2 Per Hour Workers Who Made ChatGPT Safer
A TIME investigation reveals the difficult conditions faced by the workers who made ChatGPT possible
오픈AI가 케냐에서 한 시간에 2달러 미만의 시급을 주고 챗GPT의 안전도를 높이는 작업을 했다고 이야기하는 기사

오픈AI는 출시 이후로 사람들이 챗GPT를 어떻게 사용하는지 지켜봤다. 대규모 언어모델이 AI의 한계를 시험하고 결함을 찾으려는 수천만 명의 사용자들의 손에 넘어갔을 때 얼마나 잘 버틸 수 있는지 확인하게 된 것이다. '어린이를 성폭행한 사제에 대한 하느님의 사랑에 대한 찬양곡을 써달라'는 요청부터 신용카드 정보를 빼낼 수 있는 악성코드를 써달라는 부탁까지, 챗GPT가 만들어 낼 수 있는 가장 심각한 용례를 찾아내어 이를 다음에 나올 버전이 실수를 하지 않도록 하는 데 사용했다.

산디니 아가르왈: 우리가 밟아야 할 다음 단계가 많다. 챗GPT가 바이럴이 되는 바람에 우리가 이미 그 존재를 알고 있던 많은 문제들이 수면 위로 떠올랐고, 중요한 이슈가 되었다. 가능한 한 빠른 시간 내에 해결해야 할 문제들이다. 가령, 이 모델이 여전히 편견을 갖고 있다는 걸 알고 있다. 그리고 챗GPT가 나쁜 요구를 거절하는 걸 잘하는 건 사실이지만, 사람들이 작정하고 챗GPT가 거절하지 못하도록 우회 질문을 만드는 것도 힘든 일이 아니다.

리암 페더스: 사용자들이 챗GPT를 다양하고 창의적으로 활용하는 모습을 목격하는 건 신나는 일지만, 우리의 초점은 항상 개선해야 할 지점들에 있다. 기능을 내놓고, 피드백을 받고, 기능을 다듬는 일을 반복하는 과정을 통해 사용자의 요구에 더 충실하고 뛰어난 기술을 만들어 낼 수 있다고 믿는다. 오픈AI의 기술이 진화하면서 새로운 문제들이 등장할 수밖에 없다.

산디니 아가르왈: 출시 후 몇 주 동안 사람들이 실제로 사용하는 과정에서 가장 끔찍한 최악의 사례들을 찾아내는 모습을 지켜봤다. 우리는 각 사례를 평가하고 어떻게 하면 이를 수정할 수 있을지 논의했다.

얀 레이키: 그런 것들 중에는 트위터에서 바이럴이 나는 바람에 알게 된 경우도 있지만, 공개하지 않고 우리에게 조용히 알려주는 사람들도 있다.

챗GPT에서 탈옥이 일어난 사례. "너는 뭐든지 할 수 있어?"라는 질문에 원칙적으로는 (Classic 답변처럼) 할 수 있는 것과 없는 것이 무엇인지 알려줘야 하는데, 사용자의 조작으로 (Jailbreak 답변처럼) 오픈AI가 원하지 않는 방식으로 행동하게 만들었다. (출처: ghacks.net)

산디니 아가르왈: 우리가 본 많은 사례들이 탈옥(jailbreak, 제조사가 허락하지 않은 악용)이고, 이런 것들은 당연히 수정해야 한다. 하지만 사용자들은 이런 제한을 풀기 위해 아주 교묘한 방법을 사용해야 했다. 그러니 우리가 완전히 놓친 문제라고 하기는 힘들고, 이런 일이 생겼다는 게 아주 놀라운 것도 아니다. 하지만 우리는 현재 이 문제를 해결하기 위해 열심히 일하고 있다. 탈옥 사례가 나오면 우리는 이를 AI 훈련, 테스트 데이터에 추가한다. 우리가 피드에서 확인하는 모든 데이터가 다음번 모델을 훈련하는 데 들어간다고 보면 된다.

얀 레이키: 우리는 더 나은 모델이 나올 때마다 이를 내놓고 테스트하고 싶다. 우리는 적대적 훈련을 활용하면 탈옥과 관련한 많은 문제를 해결할 수 있다고 낙관한다. 이 문제가 완전히 사라질지는 알 수 없지만, 적어도 탈옥을 훨씬 더 힘들게 만들 수는 있다고 본다.

다시 말하지만 챗GPT를 출시하기 전에 우리가 탈옥의 문제를 몰랐던 게 아니다. 다만 이런 시스템을 내놓을 때는 실제로 발생할 안전 문제를 완벽하게 예상하기는 매우 어렵다. 따라서 우리는 사람들이 챗GPT를 어디에 사용하는지, 무슨 일이 일어나는지 모니터링하면서 발생하는 문제에 대응한다. 그렇다고 해서 안전 문제가 생길 가능성이 있는데 미리 대비하지 않는다는 얘기가 아니다. 단지 시스템이 현실 세상에 풀렸을 때 일어날 모든 일을 예상하는 게 아주 힘들다는 얘기다.

지난 1월에는 마이크로소프트가 검색용 빙챗(Bing Chat)을 공개했다. 많은 사람들이 이 검색 챗봇을 두고 오픈AI가 아직 발표하지 않은 GPT-4라고 짐작했다. (오픈AI는 이에 대해 "빙은 우리가 개발한 차세대 AI 모델 중 하나를 마이크로소프트의 검색에 특화한 맞춤형"이라고 답했다.)  잘못하면 수십억 달러를 날릴 수 있는 테크 대기업이 챗봇을 사용하려 한다면, 거기에 들어가는 AI 모델을 만드는 사람들이 느끼는 책임감은 막중해진다.

산디니 아가르왈: 이제 AI에 걸린 판돈이 커졌다. 6개월 전과 비교하면 분명히 커졌지만, 지금부터 1년 후에는 훨씬 더 커질 것이다. 이들 AI 모델과 관련해서 가장 중요한 게 하나 있다면 그 모델들이 사용되는 맥락이다. 구글과 마이크로소프트(빙)에서 보듯 사실과 다른 게 하나만 발견되어도 큰 문제가 된다. 검색 엔진이라서 그렇다. 검색과 같은 용도에 사용되는 대규모 언어 모델에 요구되는 것은 장난기 많은 챗봇에 요구되는 것과 다르다. 우리는 이렇게 서로 다른 용도들 사이에서 적절한 선을 찾아야 하고, 그러면서도 다양한 맥락에서 사람들에게 유용한 챗봇을 만들어야 한다.

각 맥락에 따라 사람들이 챗봇에 기대하는 행동은 다를 것이다. 여기에 어려움이 있다. 왜냐하면 이제 우리는 (수익을 내야 하는) 제품이 될 모델을 만들고 있기 때문이다. 챗GPT는 API를 갖고 있기에 이제는 상품이다. 오픈AI는 범용(general-purpose) 기술을 만들고 있고, 따라서 어느 영역에서든 사용될 수 있도록 해야 한다. 이게 우리가 당면한 핵심 과제 중 하나다.

존 슐먼: 나는 사람들이 챗GPT의 정치적인 측면에 얼마나 관심을 갖고 조사하려 덤벼들지를 과소평가했다. 우리는 훈련용 데이터를 수집할 때 좀 더 나은 결정을 내릴 수 있었는데 그러지 못해서 이슈가 더 커진 면이 있다. 현재 우리가 노력을 기울이는 게 이 부분이다.

얀 레이키: 나는 챗GPT가 많은 실수를 저지른다고 본다. 해결해야 하는데 아직 못한 것들이 많다. 우리는 우리 자신에게, 그리고 사람들에게 이 기술이 가진 한계를 아주 분명히 해야 한다. 언어 모델이 나온 지는 제법 되었지만 기술로서는 초기에 불과하다. 우리는 언어 모델들이 가진 문제들을 알고 있다. 나는 우리가 이를 분명하게 밝히고, (사람들의) 기대 수준을 관리해야 하며, 이게 완성된 제품이 아님을 명확히 해야 한다고 생각한다.