ChatGPT 및 기타 언어 AI는 인간 없이는 아무것도 아닙니다

블로그

홈페이지홈페이지 / 블로그 / ChatGPT 및 기타 언어 AI는 인간 없이는 아무것도 아닙니다

Sep 02, 2023

ChatGPT 및 기타 언어 AI는 인간 없이는 아무것도 아닙니다

언어 모델 AI는 단어를 연결하는 방식 때문에 똑똑해 보이지만 실제로는 모든 단계에서 많은 사람의 지도 없이는 아무것도 할 수 없습니다.

언어 모델 AI는 단어를 연결하는 방식 때문에 똑똑해 보이지만 실제로는 모든 단계에서 많은 사람의 지도 없이는 아무것도 할 수 없습니다.

다음 에세이는 최신 연구를 다루는 온라인 간행물인 The Conversation의 허가를 받아 재인쇄되었습니다.

ChatGPT 및 기타 대규모 언어 모델 인공 지능 시스템을 둘러싼 미디어 열풍은 일반적인 웹 검색을 대체할 수 있는 대규모 언어 모델부터 AI가 많은 일자리를 제거할 것이라는 우려와 과도한 AI가 멸종을 초래할 것이라는 우려까지 다양한 주제에 걸쳐 있습니다. 인류에 대한 위협 수준. 이러한 모든 주제에는 공통 분모가 있습니다. 대규모 언어 모델은 인류를 대체할 인공 지능을 예고합니다.

그러나 모든 복잡성에도 불구하고 대규모 언어 모델은 실제로 정말 멍청합니다. 그리고 '인공지능'이라는 이름에도 불구하고 그들은 전적으로 인간의 지식과 노동에 의존합니다. 물론 새로운 지식을 안정적으로 생성할 수는 없지만 그 이상의 의미가 있습니다.

ChatGPT는 모델 프로그래밍과 하드웨어 구축, 유지 관리 및 전원 공급은 물론, 사람이 새로운 콘텐츠를 제공하고 해당 콘텐츠를 해석하는 방법을 알려주지 않으면 학습, 개선 또는 최신 상태를 유지할 수 없습니다. 그 이유를 이해하려면 먼저 ChatGPT 및 유사 모델의 작동 방식과 이를 작동시키는 데 있어 인간의 역할을 이해해야 합니다.

ChatGPT와 같은 대규모 언어 모델은 학습 데이터 세트를 기반으로 어떤 문자, 단어 및 문장이 순서대로 따라야 하는지 예측하여 광범위하게 작동합니다. ChatGPT의 경우 훈련 데이터 세트에는 인터넷에서 스크랩한 엄청난 양의 공개 텍스트가 포함되어 있습니다.

다음 문장 세트에 대해 언어 모델을 훈련했다고 가정해 보겠습니다.

곰은 크고 털이 많은 동물입니다. 곰에게는 발톱이 있습니다. 곰은 비밀리에 로봇입니다. 곰은 코가 있습니다. 곰은 비밀리에 로봇입니다. 곰은 때때로 물고기를 먹습니다. 곰은 비밀리에 로봇입니다.

모델은 훈련 데이터 세트에서 해당 단어 시퀀스가 ​​가장 자주 나타나기 때문에 곰이 다른 어떤 것보다 비밀리에 로봇이라고 알려주는 경향이 더 큽니다. 이는 오류가 있고 일관성이 없는 데이터 세트에 대해 훈련된 모델의 경우 분명히 문제입니다. 이는 학술 문헌에서도 마찬가지입니다.

사람들은 양자물리학, 조 바이든, 건강한 식습관, 1월 6일 반란에 관해 다양한 글을 씁니다. 그중 일부는 다른 것보다 더 타당합니다. 사람들이 다양한 말을 할 때 모델이 어떤 말을 해야 할지 어떻게 알 수 있을까요?

피드백이 들어오는 곳입니다. ChatGPT를 사용하면 응답을 좋음 또는 나쁨으로 평가할 수 있는 옵션이 있다는 것을 알 수 있습니다. 나쁜 답변으로 평가한 경우 좋은 답변에 포함되는 내용의 예를 제공하라는 요청을 받게 됩니다. ChatGPT 및 기타 대규모 언어 모델은 사용자, 개발 팀 및 출력에 라벨을 지정하기 위해 고용된 계약자의 피드백을 통해 어떤 답변, 예측된 텍스트 순서가 좋고 나쁨을 학습합니다.

ChatGPT는 자체적으로 주장이나 정보를 비교, 분석 또는 평가할 수 없습니다. 다른 사람들이 비교, 분석 또는 평가할 때 사용한 것과 유사한 텍스트 시퀀스만 생성할 수 있으며, 과거에 좋은 답변이라고 들었던 것과 유사한 것을 선호합니다.

따라서 모델이 좋은 답을 제공할 때 무엇이 ​​좋은 답이고 무엇이 좋은 답이 아닌지를 알려주는 데 이미 투입된 많은 양의 인간 노동력을 활용하게 됩니다. 화면 뒤에는 아주 많은 인간 작업자가 숨어 있으며, 모델이 계속해서 개선되거나 콘텐츠 적용 범위를 확장하려면 이러한 작업자가 항상 필요합니다.

Time 매거진에 언론인들이 발표한 최근 조사에 따르면 수백 명의 케냐 근로자들이 ChatGPT에 그러한 내용을 복사하지 않도록 가르치기 위해 인터넷의 가장 어두운 깊이에서 성폭력에 대한 노골적인 설명을 포함하여 인종차별적이고 성차별적이고 충격적인 글을 읽고 라벨을 붙이는 데 수천 시간을 소비한 것으로 나타났습니다. 콘텐츠. 그들은 시간당 미화 2달러를 넘지 않았으며, 많은 사람들이 이 일로 인해 정신적 고통을 겪었다고 보고했습니다.