GPT-4와 o1의 Wordle 풀이능력 비교
제가 매일 빼먹지 않고 하는 활동 중에는 워들(Wordle)이라는 게임이 있습니다. 미국의 신문사 뉴욕 타임즈에서 제공하는 단어 게임입니다. 매일 자정 하나의 게임이 올라오고, 기본 규칙은 여섯 번의 시도 이내에 다섯 글자 영단어가 무엇인지 추리해서 맞추면 됩니다. 글자가 맞으면 해당 위치는 초록색으로 표시되고, 글자가 단어에 포함되지만 위치가 틀렸을 경우 노란색으로 표시되고, 글자가 단어에 없으면 회색으로 표시됩니다.
예전에 ChatGPT가 출시되고 GPT-4 모델이 탑재됐을 때, ChatGPT가 워들을 잘 풀수 있지 않을까 하는 생각을 했었습니다. 하지만 예상과는 달리, 어처구니 없는 실수들을 하면서 전혀 정답에 가까이 가지 못했습니다. 가장 흔한 실수는 특정 글자가 위치는 틀렸지만 단어 안에 포함됐을 때인데, 다른 위치에 넣고 추측을 해야함에도 이를 전혀 이해하지 못했던 것이었습니다.
o1 모델이 출시되고 나서 데모들을 보며, 왠지 워들도 잘 풀 것 같은 느낌이 들었습니다. 그리고 혹시나 그 사이에 GPT-4o 모델이 나오면서 성능에 약간의 변화가 생기지는 않았을까 기대도 조금 있었습니다. 그래서 오늘은 GPT-4와 o1에서의 워들 푸는 능력을 한 번 비교해보고 싶었습니다.
먼저 GPT-4o입니다. 워들 게임을 잘 이해하는지 확인을 하고 추측할 첫 단어를 제안해달라고 했습니다. 그러자 GPT는 ‘slate’를 추천했습니다. 자주 등장하는 모음 ‘a’와 ‘e’ 그리고 자음 ‘s’, ‘l’, ‘t’가 들어가기 때문입니다. 이 정도면 일단 합리적인 의견이라고 볼 수 있을 것 같습니다.
제안을 받은대로 ‘slate’를 입력했습니다. 그 결과, 위치는 틀렸지만 ‘l’이 단어에 포함됐다는 것은 확인했습니다. 나머지 자모음은 포함되지 않았습니다. 그래서 GPT에게 다시 물었습니다. ‘slate’를 입력한 결과를 알려주고, 이를 이해하도록 한 후, 다음 단어로는 어떤 단어를 입력하면 좋을지 제안해달라고 했습니다.
일단 현재 상황에 대한 이해는 했습니다. ‘l’을 다른 위치에 넣고 나머지 자모음은 나오지 않아야 합니다. 그리고 이를 바탕으로 ‘pluck’을 추천했습니다. 하지만 이는 ‘l’이 같은 위치에 다시 등장하기 때문에 사용할 수 없습니다. 그래서 다시 물었습니다.
그러자 GPT는 실수했다면서 다시 새로운 단어를 추천하는데 이번에는 ‘climb’였습니다. 하지만 이 역시도 적합하지 않죠. 한 번 더 물었습니다.
GPT는 ‘flock’을 제안했습니다. 아, 물론 ‘l’이 같은 위치에 들어가더라도 무의미한 시도는 아닌 것이, 다른 글자들이 단어에 포함됐는지 확인 할 수 있기 때문입니다. 하지만 저는 계속해서 ‘l’이 다른 위치에 있어야 한다고 했기 때문에 GPT는 이해를 제대로 하지 못 한 것이라고 볼 수 있습니다. 이번에는 일단 제안 받은 ‘flock’을 시도하면 그 다음 결과가 달라질 수도 있으니 한 번 입력해보고 결과를 알려줬습니다.
이번에도 결과는 이해했지만, 제안이 또 엉터리였습니다. 포기하고 제안 받은 ‘fluid’를 입력하고 그 결과를 다시 알려줬습니다.
분명 입력의 결과는 이해하고 있습니다. 하지만 단어를 제안할 때 정답의 조건에 맞지 않는 ‘flung’을 제안해주고 있습니다. GPT로 푸는 것은 여기서 일단 접기로 했습니다. 약 1년 전에 시도했을 때와 크게 달라지지 않은 것 같습니다.
이번에는 o1 모델로 시도를 해봤습니다. 추론능력이 대폭 강화된 o1 모델로는 풀 수 있을 것 같은 기대감이 들었습니다. 아까와 마찬가지로 시작하고, 첫 단어를 제안해달라고 했습니다. o1이 제안한 단어는 ‘arise’였고, 나름대로 합리적인 추측입니다. 단어를 입력하고 ‘arise’의 글자가 모두 포함되지 않는다는 결과를 알려줬습니다.
그러자 o1은 그 결과를 분석하기 시작했습니다. 이미 사용된 글자를 제외시키고, 남은 글자들 중에서 사용 빈도와 자모음의 균형 등을 고려해서 ‘pound’를 추천해줬습니다. ‘pound’를 입력하고 그 결과를 다시 알려줬습니다.
참고로 여기서 제가 실수를 했는데, ‘u’에 노란색이 표시된 것을 ‘o’에 표시됐다고 잘못 얘기했습니다. 그래서 이를 바탕으로 추천을 하길래, 제가 정보를 정정하고 다시 제안을 해달라고 했습니다.
o1은 추론 끝에 ‘lucky’를 시도해보라고 했습니다. 저는 ‘lucky’를 입력하고 다시 그 결과를 알려줬습니다.
다섯 글자 중 세 개를 맞춘 정보를 바탕으로 점점 후보를 좁혀오는 것이 보입니다. o1은 다음 단어로 ‘bully’를 제안했습니다. ‘u’와 ‘y’의 위치는 이미 확인이 되었고, ‘l’은 아직 확인이 필요하다면서 적절한 후보를 찾아서 제안했습니다. ‘bully’를 시도했을 때 ‘b’만 회색이고 나머지는 맞췄다고 알려줬습니다. 이 결과를 o1에게 알려주고 다음 단어를 달라고 했습니다.
지금까지의 정보를 바탕으로 단어의 형태를 파악했고, 첫 번째 글자를 맞춰야 한다는 것을 이해하고 있습니다. 그리고 현재 사용 가능한 글자들 가운데 첫 위치에 올 수 있는 것들을 추리고 그 중에서 가능성이 높은 단어인 ‘fully’를 제안하고 있습니다.
오늘의 정답은 ‘fully’가 맞습니다.
GPT-4가 풀 수 없었던 워들을 o1이 논리적인 과정으로 푸는 것을 확인할 수 있었습니다. 워들 자체가 엄청나게 어려운 문제는 아니지만, 영어에 대한 이해와 논리적인 사고 전개가 필요하기 때문에, 이를 풀었다는 것은 정말 놀라웠고 제 개인적으로는 가려운 곳을 시원하게 긁어주는 느낌이었습니다.
물론 o1이 완벽한 것은 아닌 것 같습니다. ‘19초 동안 생각’이라고 나온 부분을 전개하면 o1이 생각하는 방식을 보여주는 부분이 있는데, 가끔 내용과 전혀 무관한 쥬크 박스와 관련된 내용을 보여주거나, 가끔 논리를 틀리는 부분도 있어서 당황스럽기도 합니다. 하지만 아직은 프리뷰이므로 향후에 정식 버전이 나오면 더욱 안정적인 성능을 보여주지 않을까 예상해봅니다.
'AI' 카테고리의 다른 글
AI의 발전과 탄소 배출의 관계 (1) | 2024.09.20 |
---|---|
OpenAI o1의 '사용자 기만' 문제 (5) | 2024.09.20 |
OpenAI o1으로 크로스워드 풀기 (0) | 2024.09.20 |
OpenAI o1으로 Connections 풀기 (1) | 2024.09.19 |
OpenAI o1 모델로 한국인들만 알아보는 한국어 리뷰 파훼하기 (2) | 2024.09.18 |
OpenAI o1 모델이란? (1) | 2024.09.18 |
Transformer 모델의 이해 (1) | 2024.09.18 |
Apple Intelligence는 애플의 구원투수가 될까? (1) | 2024.09.18 |
댓글
이 글 공유하기
다른 글
-
OpenAI o1으로 크로스워드 풀기
OpenAI o1으로 크로스워드 풀기
2024.09.20 -
OpenAI o1으로 Connections 풀기
OpenAI o1으로 Connections 풀기
2024.09.19 -
OpenAI o1 모델로 한국인들만 알아보는 한국어 리뷰 파훼하기
OpenAI o1 모델로 한국인들만 알아보는 한국어 리뷰 파훼하기
2024.09.18 -
OpenAI o1 모델이란?
OpenAI o1 모델이란?
2024.09.18