GPT-5, 그록-4, 구글 지니 3 AI 모델의 코딩 능력과 성능을 비교하는 친근한 일러스트.

Last Updated on 2025-08-12 by AEIAI.NET

지난 몇 주는 정신없었습니다. 오픈AI의 GPT-5, xAI의 그록-4, 구글의 지니 3(Genie 3)가 연달아 공개되며 AI 시장은 그야말로 전쟁터였죠. 직접 써보고 옥석을 가리는 건 즐거우면서도 고된 일이었습니다.

홍수처럼 쏟아지는 마케팅 문구나 벤치마크 점수 뒤에 가려진 진짜 성능을 확인하고 싶었습니다. 그래서 직접 코드를 짜게 하고, 까다로운 질문을 던지며 각 모델의 민낯을 확인해 봤습니다.

이번 글은 신제품 소식을 줄줄히 소개드리는 글은 아닙니다. 이번 2025년 여름, 시장을 뜨겁게 달군 GPT-5, 그록-4, 그리고 구글 지니 3에 대한 솔직한 사용기이자 현실적인 평가입니다. 어떤 모델에 감탄했고 어디서 실망했는지에 대한 현주소에 대한 기록입니다.

한눈에 보는 핵심 요약

코딩 능력: 여러 코딩 테스트 결과, 그록-4는 사실상 실패했습니다. 반면 GPT-5는 자잘한 버그는 있었지만, 의도를 정확히 파악해 완성도 높은 결과물을 내놨습니다.
사용자 경험: GPT-5는 모델 선택권을 없애고 자동으로 모델을 배정하는 방식으로 바뀌면서, 결과물의 일관성이 떨어지는 예상 밖의 문제를 드러냈습니다.
새로운 패러다임: 구글 지니 3는 단순 영상 생성을 넘어, 사용자가 직접 조작 가능한 ‘인터랙티브 월드’를 실시간으로 만들며 AI 기술의 다음 장을 열었습니다.

GPT-5 vs 그록-4: 코딩 테스트 정면 비교

많은 분이 궁금해하실 두 거물의 실제 성능을 확인하고자, 동일한 조건으로 몇 가지 코딩을 요청해 봤습니다. 간단한 알고리즘이 아닌, 실제 서비스에 가까운 웹페이지와 게임 생성을 목표로 삼았습니다.

솔직히, 그록-4의 결과물은 당황스러웠습니다

기대와 달리 그록-4는 거의 모든 테스트에서 유효한 결과물을 내놓지 못했습니다. 가장 큰 문제는 제대로 작동하지 않는, 심지어 문법에 맞지 않는 코드를 생성한다는 점입니다.

예를 들어 ‘픽셀 닌자 대시’ 게임을 만들어달라고 하자, 자바스크립트 파일 안에 파이썬(Pygame) 라이브러리를 가져오려는 황당한 코드를 내놨습니다. 기본적인 문법조차 지키지 못하는 모습이었습니다.

‘VR 게임 랜딩 페이지’ 제작 요청은 더 심각했습니다. 스타일(CSS)이 전혀 적용되지 않은 1990년대 수준의 HTML 뼈대만 던져줬습니다. 심지어 배경과 글자색을 모두 흰색으로 지정해, 내용을 보려면 마우스로 드래그를 해야만 했습니다. 프롬프트의 ‘맥락’을 이해하기보다 단어를 문자 그대로만 해석하는 경향이 뚜렷했습니다.

가능성을 보여준 GPT-5, 그러나 완벽과는 거리

반면 GPT-5는 훨씬 쓸 만한 결과물을 보여줬습니다. ‘캔디 매치 블라스트’ 게임을 요청하자, 반짝이는 효과가 들어간 캔디 그래픽과 애니메이션, 점수판까지 갖춘 그럴듯한 게임 화면을 바로 만들었습니다. 그록-4가 만든 평면 사각형과는 질적으로 다른 수준이었습니다.

물론 GPT-5도 완벽하진 않았습니다. 생성된 게임의 블록 교체(swap) 기능이 절반은 먹통이었고, ‘픽셀 닌자 대시’ 게임에선 캐릭터가 생성되자마자 바닥을 뚫고 떨어지는 치명적인 오류가 있었습니다.

그럼에도 결정적인 차이는 GPT-5가 ‘수정 가능한 기반’을 제공한다는 점에 있습니다. 코드 구조가 논리적이고, ‘크립토 랜딩 페이지’ 요청에 네온사인과 다크 모드 같은 최신 트렌드를 알아서 적용하는 등 맥락 파악 능력이 뛰어났습니다. 그록-4가 길을 잃고 헤맨다면, GPT-5는 최소한 목적지가 어디인지는 알고 가는 셈입니다.

구글의 반격, 인터랙티브 AI ‘지니 3’

GPT-5와 그록-4가 성능 경쟁을 벌이는 동안, 구글은 전혀 다른 차원의 결과물을 들고나왔습니다. 텍스트나 이미지 프롬프트 하나로 직접 탐험 가능한 3D 세계를 실시간으로 만들어내는 ‘지니 3’가 등장한 겁니다.

영상 생성을 넘어 ‘월드 생성’의 시대로

지니 3는 미리 만들어진 영상을 보여주는 소라(Sora)와 개념 자체가 다릅니다. 사용자가 “눈 덮인 산과 소나무 숲속, 빙하 호수 옆을 달리는 중”이라고 입력하면, 그 세계가 720p 해상도, 24fps로 즉시 구현되어 키보드로 직접 돌아다니게 됩니다.

더 놀라운 건 ‘프롬프트 기반 월드 이벤트’ 기능입니다. 게임을 하다가 “갈색 곰을 추가해줘”라고 입력하면 장면에 곰이 나타나고, “뜨거운 열기구를 띄워줘”라고 하면 하늘에 열기구가 생깁니다. 벽에 페인트칠을 하고 다른 곳을 둘러보다 돌아와도 칠이 그대로 남아있는 등, 약 1분간의 시각적 메모리를 유지하는 점도 인상 깊었습니다.

이는 AI의 역할이 단순한 콘텐츠 생성을 넘어, 사용자와 상호작용하는 ‘경험’과 ‘공간’을 창조하는 단계로 넘어섰다는 신호탄입니다.

아직은 명확한 한계, 그러나 방향성은 분명하다

물론 지니 3는 아직 초기 기술입니다. 생성된 월드에서 연속적인 상호작용은 몇 분 정도만 유지되고, 복잡한 물리법칙이나 여러 캐릭터의 상호작용을 구현하는 데는 아직 한계가 보입니다. 당연한 거긴 하겠지만요.

그렇다고 이 기술의 목표가 단순히 게임을 만드는 데 있지는 않습니다. AI 에이전트가 무한한 가상 세계에서 스스로 학습하고 훈련할 환경을 제공하는 것, 즉 범용 인공지능(AGI)으로 가는 중요한 발판을 마련했다는 점에서 그 의미가 큽니다.

GPT-5의 뜻밖의 논란: 모델 선택권의 부재

GPT-5는 성능 면에서 분명한 발전을 이뤘지만, 정작 사용자 경험에선 고개를 갸웃하게 만드는 변화가 있었습니다. 여러 버전의 모델을 하나로 통합하면서, 사용자의 모델 선택권을 없앤 것입니다.

사용자를 불편하게 만든 ‘스마트’ 시스템

오픈AI의 설명은 이렇습니다. 사용자의 프롬프트에 따라 시스템이 가장 적절한 모델(예: GPT-5 High, Medium 등)을 자동으로 골라준다는 겁니다. 이론적으로는 효율적이지만, 문제는 사용자가 원할 때 최대 성능을 강제할 방법이 없다는 점입니다.

간단한 질문에는 성능이 낮은 모델이 배정되어 이전 버전과 별 차이 없는 답변을 내놓고, 정작 중요한 작업에서 어떤 모델이 작동했는지 알 수 없어 결과의 일관성을 신뢰하기 어렵게 됐습니다. 오픈AI가 ‘GPT-5 프롬프트 가이드’를 배포하며 특정 방식으로 질문해야 더 나은 답변을 얻을 수 있다고 안내하는 건, 기술이 사용자를 돕는 게 아니라 사용자가 기술에 맞춰야 하는 아이러니를 보여줍니다.

환각은 줄었지만, 통제 불가능한 성능

긍정적인 부분도 있습니다. 공식 발표에 따르면 GPT-5는 사실을 왜곡하는 환각(Hallucination) 현상이 이전 모델 대비 최대 90%까지 크게 줄었습니다. 실제로 사용해 봐도 답변의 신뢰도는 확실히 높아진 게 느껴집니다.

그런데 이 장점은 앞서 말한 ‘모델 선택권 부재’ 문제와 맞물려 빛이 바랩니다. 아무리 환각이 줄었어도, 내가 원할 때 최고 성능의 모델을 직접 선택해 작업을 통제할 수 없다면 ‘믿고 맡기기’ 어려운 건 마찬가지입니다. 컴퓨팅 자원 효율화를 위한 결정으로 보이지만, 가장 많은 사용자를 보유한 서비스로서는 아쉬운 선택입니다.

구분GPT-5 (통합 모델)그록-4 (Expert)구글 지니 3 (기술 데모)
핵심 강점맥락 이해 및 완성도 높은 코드 초안 생성
프롬프트 의도를 파악하고, 최신 트렌드를 반영한 결과물 도출
빠른 응답 속도
생성 속도 자체는 빠르나, 결과물의 품질이 매우 낮음
실시간 인터랙티브 월드 생성
단순 영상이 아닌, 사용자가 직접 조작 가능한 3D 공간 창조
주요 약점사용자 모델 선택권 부재
결과물 성능의 일관성 부족, 사용성 저하
심각한 코드 문법 오류
다른 언어 문법 혼용, 프롬프트 맥락 이해 실패
제한적인 상호작용 및 지속성
수 분 내외의 짧은 지속 시간, 복잡한 상호작용 불가
실용성 평가버그 수정이 필요하지만, 실제 개발의 출발점으로 활용 가능현재로서는 실사용이 거의 불가능한 수준게임, 교육, 시뮬레이션 등 미래 활용 가능성이 무한
가치 판단월 20달러의 가치는 충분하나, 모델 선택 불가 문제는 개선 필요현재 성능으로는 가격을 논하기 무의미함미래 산업의 판도를 바꿀 기술 (현재 비상업용 데모)

정리하자면..현재의 강자, 미래의 판도를 바꿀 주역

2025년 여름의 AI 신제품 대전을 직접 겪어본 제 결론은 비교적 명확합니다.

현재 시점에서 가장 실용적인 모델은 GPT-5입니다. 여러 코딩 테스트에서 보여준 맥락 이해 능력과 완성도는 다른 모델을 크게 앞섭니다. 다만, 사용자에게서 모델 선택권을 가져간 것은 심각한 단점이며, 이 문제가 해결되지 않는다면 장기적인 신뢰를 얻기 어려워 보입니다. 물론 여기엔 경쟁 제품 대비 저렴한 가격도 주요 요인 중 하나라고 볼 수 있습니다.

그록-4는 솔직히 추천하기 어렵습니다. 현재로서는 ‘미완성’이라는 표현이 가장 적절하며, 비용을 내고 쓰기에는 완성도가 너무나 부족합니다.

미래의 가능성을 본다면 단연 구글 지니 3입니다. 아직 연구 단계에 가깝지만, AI가 콘텐츠 생성을 넘어 상호작용 가능한 경험을 창조하는 시대로 가고 있음을 분명히 보여줬습니다. 이 기술이 성숙해질 몇 년 뒤가 더 기대되는 이유입니다.

결국 어떤 AI가 ‘최고’라고 단정하기보다, 내 목적에 맞는 도구를 현명하게 선택하고 그 한계를 꿰뚫어 보는 안목이 그 어느 때보다 중요해졌습니다. AI의 발전 속도는 우리의 예상을 뛰어넘고 있으니, 언제든지 놀랄준비 하고 지갑을 새롭게 열(?)준비를 하고있어야 할 지 모르겠습니다.

자주 묻는 질문 (FAQ)

GPT-5, 그록-4, 구글 지니 3 중 현재 가장 실용적인 AI 모델은 무엇인가요?

2025년 여름 기준, 현재 가장 실용적인 AI 모델은 GPT-5입니다. 맥락 이해 능력과 완성도 높은 코드 초안 생성 능력에서 다른 모델을 크게 앞섭니다. 그록-4는 실사용이 어렵고, 구글 지니 3는 미래 가능성이 높지만 아직 연구 단계입니다.

GPT-5의 ‘모델 선택권 부재’는 사용자 경험에 어떤 영향을 미치나요?

GPT-5의 모델 선택권 부재는 사용자가 원하는 최고 성능의 모델을 강제할 수 없게 하여 결과물의 일관성을 떨어뜨립니다. 시스템이 자동으로 모델을 배정하므로, 중요한 작업 시 어떤 모델이 작동했는지 알기 어려워 신뢰도가 저하될 수 있습니다.

GPT-5와 그록-4의 코딩 능력은 어떻게 비교되나요?

GPT-5는 자잘한 버그는 있지만 의도를 파악해 완성도 높은 코드 초안을 제공합니다. 반면 그록-4는 문법 오류가 잦고 프롬프트 맥락을 이해하지 못해 실사용이 거의 불가능한 수준입니다. GPT-5가 훨씬 수정 가능한 기반을 제공합니다.

구글 지니 3의 ‘인터랙티브 월드 생성’ 기능은 기존 영상 생성 AI와 어떤 차이가 있나요?

구글 지니 3는 단순 영상 생성을 넘어, 사용자가 직접 조작 가능한 3D 세계를 실시간으로 만들어냅니다. 기존 영상 생성 AI(예: Sora)가 미리 만들어진 영상을 보여주는 것과 달리, 지니 3는 사용자의 프롬프트에 따라 환경이 변화하는 상호작용 경험을 제공합니다.

2025년 AI 모델들의 발전이 미래 AI 시장에 어떤 의미를 가지나요?

2025년 AI 모델들은 단순 콘텐츠 생성을 넘어, 사용자와 상호작용하는 ‘경험’과 ‘공간’을 창조하는 단계로 진입했음을 보여줍니다. 특히 구글 지니 3는 AI 에이전트가 가상 세계에서 스스로 학습하고 훈련할 환경을 제공하며, 범용 인공지능(AGI)으로 가는 중요한 발판을 마련했다는 의미가 있습니다.

Similar Posts

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다