2025년 AI 시장을 뒤흔든 GPT-5, 그록-4, 구글 지니 3를 직접 써보고 내린 솔직한 평가. 코딩 능력부터 인터랙티브 월드까지, 진짜 성능과 미래를 확인하세요.
한눈에 보는 핵심 요약
▪ 코딩 능력: 여러 코딩 테스트 결과, 그록-4는 사실상 실패했습니다. 반면 GPT-5는 자잘한 버그는 있었지만, 의도를 정확히 파악해 완성도 높은 결과물을 내놨습니다. ▪ 사용자 경험: GPT-5는 모델 선택권을 없애고 자동으로 모델을 배정하는 방식으로 바뀌면서, 결과물의 일관성이 떨어지는 예상 밖의 문제를 드러냈습니다. ▪ 새로운 패러다임: 구글 지니 3는 단순 영상 생성을 넘어, 사용자가 직접 조작 가능한 ‘인터랙티브 월드’를 실시간으로 만들며 AI 기술의 다음 장을 열었습니다.GPT-5 vs 그록-4: 코딩 테스트 정면 비교
많은 분이 궁금해하실 두 거물의 실제 성능을 확인하고자, 동일한 조건으로 몇 가지 코딩을 요청해 봤습니다. 간단한 알고리즘이 아닌, 실제 서비스에 가까운 웹페이지와 게임 생성을 목표로 삼았습니다.솔직히, 그록-4의 결과물은 당황스러웠습니다
가능성을 보여준 GPT-5, 그러나 완벽과는 거리
반면 GPT-5는 훨씬 쓸 만한 결과물을 보여줬습니다. ‘캔디 매치 블라스트’ 게임을 요청하자, 반짝이는 효과가 들어간 캔디 그래픽과 애니메이션, 점수판까지 갖춘 그럴듯한 게임 화면을 바로 만들었습니다. 그록-4가 만든 평면 사각형과는 질적으로 다른 수준이었습니다.물론 GPT-5도 완벽하진 않았습니다. 생성된 게임의 블록 교체(swap) 기능이 절반은 먹통이었고, ‘픽셀 닌자 대시’ 게임에선 캐릭터가 생성되자마자 바닥을 뚫고 떨어지는 치명적인 오류가 있었습니다.그럼에도 결정적인 차이는 GPT-5가 ‘수정 가능한 기반’을 제공한다는 점에 있습니다. 코드 구조가 논리적이고, ‘크립토 랜딩 페이지’ 요청에 네온사인과 다크 모드 같은 최신 트렌드를 알아서 적용하는 등 맥락 파악 능력이 뛰어났습니다. 그록-4가 길을 잃고 헤맨다면, GPT-5는 최소한 목적지가 어디인지는 알고 가는 셈입니다.구글의 반격, 인터랙티브 AI ‘지니 3’
GPT-5와 그록-4가 성능 경쟁을 벌이는 동안, 구글은 전혀 다른 차원의 결과물을 들고나왔습니다. 텍스트나 이미지 프롬프트 하나로 직접 탐험 가능한 3D 세계를 실시간으로 만들어내는 ‘지니 3(Genie 3)’가 등장한 겁니다.

영상 생성을 넘어 ‘월드 생성’의 시대로
지니 3는 미리 만들어진 영상을 보여주는 소라(Sora)와 개념 자체가 다릅니다. 사용자가 “눈 덮인 산과 소나무 숲속, 빙하 호수 옆을 달리는 중”이라고 입력하면, 그 세계가 720p 해상도, 24fps로 즉시 구현되어 키보드로 직접 돌아다니게 됩니다.더 놀라운 건 ‘프롬프트 기반 월드 이벤트’ 기능입니다. 게임을 하다가 “갈색 곰을 추가해줘”라고 입력하면 장면에 곰이 나타나고, “뜨거운 열기구를 띄워줘”라고 하면 하늘에 열기구가 생깁니다. 벽에 페인트칠을 하고 다른 곳을 둘러보다 돌아와도 칠이 그대로 남아있는 등, 약 1분간의 시각적 메모리를 유지하는 점도 인상 깊었습니다.이는 AI의 역할이 단순한 콘텐츠 생성을 넘어, 사용자와 상호작용하는 ‘경험’과 ‘공간’을 창조하는 단계로 넘어섰다는 신호탄입니다.아직은 명확한 한계, 그러나 방향성은 분명하다
물론 지니 3는 아직 초기 기술입니다. 생성된 월드에서 연속적인 상호작용은 몇 분 정도만 유지되고, 복잡한 물리법칙이나 여러 캐릭터의 상호작용을 구현하는 데는 아직 한계가 보입니다. 당연한 거긴 하겠지만요.그렇다고 이 기술의 목표가 단순히 게임을 만드는 데 있지는 않습니다. AI 에이전트가 무한한 가상 세계에서 스스로 학습하고 훈련할 환경을 제공하는 것, 즉 범용 인공지능(AGI)으로 가는 중요한 발판을 마련했다는 점에서 그 의미가 큽니다.GPT-5의 뜻밖의 논란: 모델 선택권의 부재
GPT-5는 성능 면에서 분명한 발전을 이뤘지만, 정작 사용자 경험에선 고개를 갸웃하게 만드는 변화가 있었습니다. 여러 버전의 모델을 하나로 통합하면서, 사용자의 모델 선택권을 없앤 것입니다.사용자를 불편하게 만든 ‘스마트’ 시스템
오픈AI의 설명은 이렇습니다. 사용자의 프롬프트에 따라 시스템이 가장 적절한 모델(예: GPT-5 High, Medium 등)을 자동으로 골라준다는 겁니다. 이론적으로는 효율적이지만, 문제는 사용자가 원할 때 최대 성능을 강제할 방법이 없다는 점입니다.간단한 질문에는 성능이 낮은 모델이 배정되어 이전 버전과 별 차이 없는 답변을 내놓고, 정작 중요한 작업에서 어떤 모델이 작동했는지 알 수 없어 결과의 일관성을 신뢰하기 어렵게 됐습니다. 오픈AI가 ‘GPT-5 프롬프트 가이드’를 배포하며 특정 방식으로 질문해야 더 나은 답변을 얻을 수 있다고 안내하는 건, 기술이 사용자를 돕는 게 아니라 사용자가 기술에 맞춰야 하는 아이러니를 보여줍니다.환각은 줄었지만, 통제 불가능한 성능
긍정적인 부분도 있습니다.| 구분 | GPT-5 (통합 모델) | 그록-4 (Expert) | 구글 지니 3 (기술 데모) |
| 핵심 강점 | 맥락 이해 및 완성도 높은 코드 초안 생성 프롬프트 의도를 파악하고, 최신 트렌드를 반영한 결과물 도출 | 빠른 응답 속도 생성 속도 자체는 빠르나, 결과물의 품질이 매우 낮음 | 실시간 인터랙티브 월드 생성 단순 영상이 아닌, 사용자가 직접 조작 가능한 3D 공간 창조 |
| 주요 약점 | 사용자 모델 선택권 부재 결과물 성능의 일관성 부족, 사용성 저하 | 심각한 코드 문법 오류 다른 언어 문법 혼용, 프롬프트 맥락 이해 실패 | 제한적인 상호작용 및 지속성 수 분 내외의 짧은 지속 시간, 복잡한 상호작용 불가 |
| 실용성 평가 | 버그 수정이 필요하지만, 실제 개발의 출발점으로 활용 가능 | 현재로서는 실사용이 거의 불가능한 수준 | 게임, 교육, 시뮬레이션 등 미래 활용 가능성이 무한 |
| 가치 판단 | 월 20달러의 가치는 충분하나, 모델 선택 불가 문제는 개선 필요 | 현재 성능으로는 가격을 논하기 무의미함 | 미래 산업의 판도를 바꿀 기술 (현재 비상업용 데모) |
정리하자면..현재의 강자, 미래의 판도를 바꿀 주역
2025년 여름의 AI 신제품 대전을 직접 겪어본 제 결론은 비교적 명확합니다.현재 시점에서 가장 실용적인 모델은 GPT-5입니다. 여러 코딩 테스트에서 보여준 맥락 이해 능력과 완성도는 다른 모델을 크게 앞섭니다. 다만, 사용자에게서 모델 선택권을 가져간 것은 심각한 단점이며, 이 문제가 해결되지 않는다면 장기적인 신뢰를 얻기 어려워 보입니다. 물론 여기엔 경쟁 제품 대비 저렴한 가격도 주요 요인 중 하나라고 볼 수 있습니다.그록-4는 솔직히 추천하기 어렵습니다. 현재로서는 ‘미완성’이라는 표현이 가장 적절하며, 비용을 내고 쓰기에는 완성도가 너무나 부족합니다.미래의 가능성을 본다면 단연 구글 지니 3입니다. 아직 연구 단계에 가깝지만, AI가 콘텐츠 생성을 넘어 상호작용 가능한 경험을 창조하는 시대로 가고 있음을 분명히 보여줬습니다. 이 기술이 성숙해질 몇 년 뒤가 더 기대되는 이유입니다.결국 어떤 AI가 ‘최고’라고 단정하기보다, 내 목적에 맞는 도구를 현명하게 선택하고 그 한계를 꿰뚫어 보는 안목이 그 어느 때보다 중요해졌습니다.AI의 발전 속도는 우리의 예상을 뛰어넘고 있으니, 언제든 새로운 혁신에 놀라고 또 지갑을 열 준비를 해야 할지도 모르겠습니다.함께 읽으면 좋은 글
본문에서 다룬 최신 AI 모델 경쟁 구도에 대해 더 깊이 알고 싶다면 다음 글들을 확인해 보세요.- GPT-5 출시일, 단순 루머가 아닙니다: 진짜 능력과 등골 서늘한 경고
- AI 전쟁 2라운드, 당신의 ‘무기’는 무엇인가? Grok 4, 무료 코파일럿, AI 브라우저 생존 분석
- 2025년 진짜 AI 기술 4가지 | ‘빠른 앵무새’의 시대는 끝났습니다






