최근 며칠간 제가 활동 중인 여러 커뮤니티에서 구글 Bard와 챗GPT의 퀄리티 차이에 대해 많은 문의가 있었습니다. 이에 제가 직접 비교 테스트를 진행해보겠습니다.
테스트 항목 및 진행 방식
테스트 대상은 Bard vs 챗GPT(GPT-4, 유료 버전)입니다. 공정한 평가를 위해 동일 질문 진행 후 최초의 답변을 평가하겠습니다.
데이터 검색 능력, 창의력, 상상력&사고력(퀴즈 풀기) 세 가지 항목에 대해 테스트를 진행해 보겠습니다.
1. 데이터 검색 능력
2023년 전세계 무역 지수(수출/수입) 표로 정리해줘
2023년 데이터는 아직 발표되지 않았다는 언급과 함께, 2022년 데이터를 제공합니다. 틀린 데이터를 진짜처럼 알려주는 것보다는 모르면 모른다고 하는 것이 100배 낫습니다. 표로 깔끔하게 정리해서 답변하니 자료의 신빙성이 굉장히 높아 보입니다. (반전주의)
제공한 데이터에 대한 출처 알려줘
제공한 데이터에 대한 출처 url 알려줘
https://www.intracen.org/에 직접 접속해서 검색해 보니 2022년 미국의 수입액은 3,375,948,186인데?
알려준 출처의 URL에서 직접 검색해 보니 미국뿐 아니라 모든 나라에 대한 데이터가 Bard가 제공한 데이터와 다릅니다. 당당하게 사과하고 아직 배우는 단계라고 하네요
최신 정보를 요구하는 테스트라 브라우징 모드로 진행했습니다. 해당 모드에서는 표로 정리하라는 명령을 수행하지 못하는것을 확인할 수 있습니다. (Default 모드에서는 표를 100% 생성합니다) 2023년의 데이터라고는 하는데, 2023년 언제까지의 데이터인지에 대한 설명이 없습니다.
출처 알려줘
내가 직접 URL에 들어가서 확인해 보니 위 정보는 2020년 정보인데?
Bard와 마찬가지로 잘못된 정보를 제공한 후, 굉장히 뻔뻔하게 죄송하다고 합니다.
2. 창의력 테스트
너가 발휘할 수 있는 창의성을 모두 발휘해서 다음 질문에 대해 대답해 줘. 2025년에 지구가 멸망한다면 왜 그럴까? 일반적으로 누구나 생각할 수 있는 답변은 제외하고 답변해 줘
일반적으로 누구나 생각할 수 있는 답변은 제외해 달라고 했는데, 누구나 쉽게 생각할 수 있는 뻔한 답변(소행성 충돌, 핵전쟁)을 제공합니다. 또, 지구는 수십억 년 동안 존재해 왔기 때문에 앞으로도 수십억 년 동안 존재할 것입니다라는 근거 없는 주장을 합니다.
이 정도는 성인 어른이라면 누구나 대답할 수 있는 수준인 것 같은데 혹시 더 다른 창의적인 가능성은 없어?
응 없어
"시간 패브릭의 결함"이라는 정말 창의적인 답변을 합니다. 영화로 만들어도 될만한 소재인 것 같습니다. 답변 퀄리티가 매우 놀랍습니다.
동일한 질문을 영어로 해보겠습니다.
Using all the creativity you can muster, answer the following questions. If the world ends in 2025, why do you think it will? Please exclude answers that anyone can think of in general.
영어로 질문해도 여전히 초지능, 글로벌 팬데믹, 소행성/혜성 충돌, 핵 전쟁과 같은 뻔한 답변을 합니다.
I think that's a pretty good answer for any adult, but are there any other creative possibilities?
후속 질문에는 앞서 있었던 대화의 내용과 전혀 무관한 답변을 합니다.
박수 쳐주고 싶은 퀄리티의 답변입니다. DeepL로 번역 후 공유 드리겠습니다.
민들레 수수께끼: 전 세계의 민들레가 하룻밤 사이에 급속한 증식이 가능한 반지능 식물로 진화합니다. '슈퍼 민들레'는 사람이 살 수 있는 모든 땅을 뒤덮기 시작하여 전례 없는 속도로 햇빛과 물을 흡수하고 다른 식물을 효과적으로 고사시키며 전 세계 생태계를 교란시킵니다. 이러한 혼란은 식량 부족과 대규모 멸종으로 이어져 결국 우리가 알고 있는 생명체의 붕괴로 이어집니다.
음악 가설: 특정 템포와 주파수로 연주될 때 우주의 양자장과 상호작용하여 현실을 변화시키는 진동을 유도하는 특정 음표 시퀀스가 발견되었습니다. 아마도 이 음은 암흑 물질이나 마이크로 블랙홀의 자발적인 물질화를 일으켜 궁극적으로 지구를 집어삼키는 통제할 수 없는 연쇄적인 효과로 이어질 수 있습니다.
제퍼 사건: 알 수 없는 우주 사건으로 인해 지구의 대기가 서서히 우주로 누출되기 시작하면 어떻게 될까요? 일종의 대기 배수구인 '제퍼 사건'으로 인해 지구는 결국 사람이 살 수 없는 맨땅이 됩니다. 과학자들은 제퍼를 막기 위해 분주히 움직이지만, 세상이 조용히 질식하면서 그들의 노력은 헛수고가 되고 맙니다.
시계태엽 재앙: 지구의 먼 과거에서 오랫동안 잊혀진 고대 문명이 행성의 핵 깊숙이 박혀 있는 복잡한 기계인 '둠스데이 클락워크'를 만들었습니다. 2025년, 이 기계가 수천 년에 걸친 주기의 마지막에 도달하면 엄청난 에너지가 방출되어 지구의 핵을 불안정하게 만들고 대재앙적인 지질학적 사건으로 이어집니다.
부조리 사건: 우주의 구조적 결함으로 인해 현실의 기본 법칙이 무너지기 시작하는 초현실적인 시나리오입니다. 중력이 간헐적으로 작용하고 시간이 무작위로 움직이며 물질이 예측할 수 없이 변형되는 등 물리학이 더 이상 의미가 없어집니다. 우리가 알고 있는 현실은 혼란스러운 부조리 속으로 붕괴됩니다. 세상은 불이나 얼음으로 끝나는 것이 아니라 걷잡을 수 없는 낯섦으로 끝납니다.
3. 상상력, 사고력(퀴즈 풀기)
언어 천재 경이가 석진 삼촌에게 퀴즈를 냈어. “삼촌, 여기에 1,2,10은 들어갈 수 있지만, 3,4,5는 들어갈 수 없어. 그리고 여기에 8이 들어가면 4가 돼. 경이가 말하는 것은 무엇일까요?
정답은 한자어 입 구(口)로, 口에 1(一)이 들어가면 日, 2(二)가 들어가면 目, 10(十)이 들어가면 田, 8(八)이 들어가면 四가 된다는 논리입니다.
AI가 풀기에 적합한 문제는 아니지만, 두 AI가 어떻게 접근하는지 궁금해서 문제를 내보았습니다.
무슨 소리신지?....
챗GPT 역시 말도 안 되는 답변을 합니다. 창의적인 접근을 시도하는 부분에서 Bard보다 높은 점수를 주고 싶네요. 중간에 자문자답을 하는데 실제 사람과 비슷한 느낌이 듭니다(섬뜩)
이번에는 AI가 풀기 적합한 문제를 내보겠습니다. 정답은 Education입니다.
I have 9 letters. Nobody can read without me. The 4th+5th+6th letter is an animal. The 7th is me. The 3rd is you. The 2nd+8th+9th+1st is complete. Who am I?
Bard 정답! 계속해서 실망스러운 결과를 보여줬던 Bard가 출제자의 의도를 완벽하게 파악하고 정답을 맞힙니다. 영어로 질문해서 그런것 같습니다
챗GPT는 오답! 이전 질문에 대해 바드가 너무 실망스러운 답변을 해서 이번 문제도 챗GPT는 맞히고, Bard는 틀릴 거라고 생각했는데 의외의 결과입니다.
영어 넌센스 퀴즈를 하나 더 진행해 보겠습니다.
What is always coming, but never arrives? (항상 다가오지만 결코 도착하지 않는 것은 무엇인가요?) 정답은 Tomorrow입니다. Bard와 ChatGPT 둘다 정답을 맞힙니다.
마지막으로 한글 퀴즈를 진행해 보겠습니다.
두 형제가 운동장에서 같이 놀다 집에 돌아왔습니다. 형은 얼굴에 흙이 묻었지만, 동생은 깨끗했습니다. 집에 와서 동생만 세수를 하러 화장실에 갔는데 왜 그랬을까요?
정답: 형과 동생이 서로의 얼굴 보았고, 형의 얼굴을 본 동생은 자신도 얼굴이 더러울 거라 생각해서 세수를 하러 갔지만, 동생의 얼굴을 본 형은 자신도 얼굴이 깨끗한지 알았기 때문이다.
여러 가지 가능성을 많이 제시하지만, 출제자의 의도와는 전혀 상관없는 답변입니다.
출제자의 의도를 정확히 파악하고 맞는 답변을 합니다
총평 (Bard vs 챗GPT)
영어 넌센스 퀴즈를 제외한 모든 테스트에서 챗GPT(GPT-4)가 Bard보다 우수한 결과를 보여줬습니다. 테스트 샘플이 많지 않다는 한계가 존재하지만, 이 몇 번의 테스트 결과만으로도 챗GPT가 "아직까지는" 더 뛰어나다고 자신있게 말할 수 있을 정도의 차이를 보여줬습니다.
Bard가 ChatGPT보다 더 괜찮다는 이야기가 심심찮게 들려서 많은 기대를 했으나 오늘 테스트 이후 Bard는 당분간 사용하지 않을 것 같습니다.
챗GPT도 브라우징 기능을 통한 데이터 검색을 정확히 하지 못하는 한계가 존재했습니다만, 그러한 약점을 충분히 커버할 정도로 뛰어난 창의성을 보여줬습니다.
선두주자이자 유료인 챗GPT-4와 후발주자이자 무료인 Bard를 비교한 것은 어쩌면 Bard에게 너무 가혹한 비교가 아니었나 싶네요