딥시크 V4의 벤치마크 성적이 조작 논란에 휩싸였습니다. 에포크 AI가 직접 "허위 주장"이라 밝힌 가짜 성적 뒤에 숨겨진 AI 업계의 구조적 문제와, 벤치마크 검증이 왜 중요한지 3분 만에 파악하세요.
“GPT-5.3 능가하는 코딩 성능” 유출된 벤치마크의 진실
지난 16일, AI 커뮤니티 브리지마인드가 X(트위터)를 통해 공개한 딥시크 V4 벤치마크 결과는 숨 막힐 정도였습니다. SWE-벤치 베리파이드에서 83.7%를 기록해 구글 제미나이 3 프로(76.2%), 오픈AI GPT-5.2 하이(80.0%), 앤트로픽 클로드 오퍼스 4.6(80.8%)을 모두 제쳤다는 주장이었죠. 수학 능력 테스트인 AIME 2026에서는 99.4%, 프론티어매스 티어 4에서 23.5%를 기록해 경쟁 모델을 압도했다는 내용이었습니다.
이 화려한 숫자들은 공중분해됐습니다. 에포크 AI 책임자 제이미 세비야가 직접 나서서 “이 트윗에는 프론티어매스 점수가 포함됐는데, 이는 허위 주장”이라며 “이 데이터셋은 우리와 오픈AI만 접근할 수 있다. 우리는 딥시크 V4를 평가하지 않았다”고 밝혔기 때문입니다. 커뮤니티 노트 시스템에서도 “AIME의 공식 채점 시스템에 따르면 99.4%라는 점수는 불가능하다. 최고 점수는 119/120(99.2%) 또는 120/120(100%)”라는 지적이 올라왔습니다.
왜 가짜 벤치마크가 끊이지 않을까
AI 업계에서 벤치마크 조작 의혹은 어제오늘 일이 아닙니다. 문제는 이런 과장된 성적이 반복되는 구조적 이유가 있다는 점입니다. AI 모델 시장이 포화 상태에 이르면서 소비자의 관심을 끌기 위한 충격적 숫자가 필수적인 마케팅 도구가 됐습니다. 벤치마크 자체가 특정 모델에 유리하게 설계될 수 있다는 점도 문제입니다. 검증 기관의 데이터 접근권이 제한적인 경우, 제3자가 진위 여부를 판단하기 어렵다는 것도 이유 중 하나죠.
프론티어매스의 사례가 이를 잘 보여줍니다. 이 데이터셋은 에포크 AI가 개발한 것으로, 티어 1~3은 대학 수준, 티어 4는 수학 박사들이 설계한 연구 레벨의 초고난도 문제 50개로 구성돼 있습니다. 오픈AI의 후원을 받아 논란이 된 바 있는 이 프로젝트는 사실상 오픈AI와 에포크 AI만이 접근할 수 있는 폐쇄형 데이터셋입니다. 딥시크가 이 데이터셋을 평가했다는 주장 자체가 성립될 수 없는 구조였던 셈입니다.
레딧 사용자들의 냉철한 반응과 기대감의 이중주
가짜 벤치마크가 드러났음에도 커뮤니티의 반응은 의외로 복합적이었습니다. 대다수 사용자는 거짓임을 받아들이면서도 딥시크 V4의 실제 성능에 대한 기대감은 숨기지 않았습니다. 한 레딧 사용자는 “이게 만약 사실이고 오픈소스로 공개된다면, 다시 주가 폭락이 일어날 것”이라고 말했습니다. 다른 사용자는 “중국의 오픈소스가 미국의 폐쇄형 모델 성능을 넘었다고 해도 그리 놀라운 일이 아니라”는 반응을 보였습니다.
이러한 반응은 2024년 말 딥시크 V3가 가져온 충격에서 기인합니다. 당시 딥시크는 GPT-4급 성능을 훨씬 낮은 비용으로 구현하며 엔비디아 주가 폭락과 글로벌 AI 시장의 변화를 이끌었습니다. 사용자들은 오픈소스 모델이 폐쇄형 모델을 압도할 수 있다는 가능성을 이미 체감한 상태입니다. V4의 가짜 벤치마크가 드러났음에도 실제 성능은 어느 정도일까 하는 호기심이 여전히 남아있는 것입니다.
오픈소스 vs 폐쇄형, 가격 경쟁력이 만든 신뢰
사용자들이 딥시크에 관대한 이유는 단순히 기술적 성능 때문만은 아닙니다. 오픈소스라는 점, 그리고 압도적인 가격 경쟁력이 신뢰의 기반이 됐습니다. 바이트댄스가 이번 주 공개한 시드 2.0 시리즈만 봐도 이를 확인할 수 있습니다. 100만 토큰 입력 비용이 0.50달러 미만으로, 글로벌 최상위 모델 대비 약 10분의 1 수준이죠. 미니 모델은 동급 경쟁 모델 대비 현저히 낮은 비용으로 대규모 배포에 적합하다는 평가를 받습니다.
반면 오픈AI와 앤트로픽의 최신 모델은 월 200달러 이상의 프리미엄 요금제에서만 접근할 수 있습니다. 이런 가격 격차는 개발자와 스타트업에게 중국 모델을 매력적으로 만듭니다. 성능이 90% 수준이라도 비용이 10분의 1이라면, 실무에서는 충분히 경쟁력이 있다는 판단이죠. 실제로 엔비디아가 최근 공개한 분석에 따르면, 블랙웰 플랫폼과 오픈소스 모델 전환을 결합하면 추론 비용을 4배에서 최대 10배까지 줄일 수 있다고 합니다. 고가의 폐쇄형 API를 사용하는 대신 성능이 검증된 오픈소스 모델로 전환하는 것이 비용 절감의 핵심 전략으로 자리 잡았습니다.
벤치마크 과열 경쟁, 확인해야 할 3가지
가짜 벤치마크 사태가 보여주는 것은 AI 업계의 수치 과시 경쟁이 위험 수위에 올랐다는 점입니다. 확인해야 할 포인트는 명확합니다.
단일 벤치마크에 의존하면 안 되는 이유
SWE-벤치, AIME, 프론티어매스 등 특정 벤치마크에서의 고득점이 실제 업무 환경에서의 유용성을 보장하지 않습니다. 벤치마크는 모델이 특정 유형의 문제를 얼마나 잘 푸는지를 측정할 뿐, 실제 비즈니스 시나리오에서의 복합적 문제 해결 능력까지 평가하지 못합니다. 모델 선택 시 다양한 벤치마크를 종합적으로 고려해야 합니다. 특히 실제 유사 업무 환경에서의 PoC(개념 증명)를 진행하는 것이 가장 신뢰할 수 있는 방법입니다.
출처 불명 벤치마크는 의심해야 합니다
이번 사태의 핵심 교훈은 검증 기관이나 공식 채널이 아닌 곳에서 유출된 벤치마크는 의심해야 한다는 점입니다. 프론티어매스처럼 접근 권한이 제한적인 데이터셋의 경우, 제3자가 평가했다는 주장 자체가 성립되지 않을 수 있습니다. 커뮤니티 노트나 공식 검증 시스템의 확인을 거친 정보를 우선적으로 신뢰해야 합니다.
실제 사용자 후기를 우선하십시오
레딧, 해커 뉴스, 개발자 커뮤니티에서 실제로 모델을 사용해 본 사용자들의 후기를 참고하는 것이 벤치마크 숫자보다 훨씬 신뢰할 수 있습니다. 이들은 특정 과제에서 모델이 어떻게 작동했는지, 어떤 한계가 있었는지, 실제 비용은 얼마나 들었는지를 구체적으로 공유합니다. 이런 날것의 정보가 모델 선택에 더 유용한 기준이 됩니다.
딥시크 V4 실제 출시, 무엇을 기대해야 할까
딥시크의 새로운 모델은 이번 주중 공개될 것으로 예측됩니다. 가짜 벤치마크 논란으로 인해 실제 성능에 대한 관심이 더 높아진 상황입니다. 딥시크가 V4를 통해 보여줄 수 있는 것은 무엇일까요?
이전 버전인 V3.2-싱킹이 SWE-벤치 베리파이드에서 73.1%를 기록했습니다. V4가 실제로 80%대 초반의 성능을 보여준다면, GPT-5 계열과 클로드 오퍼스 4.6과 실질적인 경쟁 관계에 들어섭니다. 특히 코딩과 수학 분야에서의 강점이 지속된다면, 개발자 중심의 시장에서 입지를 넓힐 수 있습니다.
진짜 승부처는 가격입니다. 딥시크가 V4를 오픈소스로 공개하면서 기존처럼 낮은 추론 비용을 유지한다면, 폐쇄형 모델들에게 상당한 압박이 됩니다. 엔비디아의 분석처럼 오픈소스 모델 전환이 비용 절감의 핵심이라면, 딥시크 V4의 성능이 90% 수준이라도 충분히 매력적인 선택지가 됩니다.
숫자 너머의 가치를 봐야 할 때
딥시크 V4 벤치마크 논란은 AI 업계가 수치 경쟁이라는 덫에 빠져 있음을 보여줍니다. 모델 개발사는 검증되지 않은 벤치마크를 유출해 화제를 만들려 하고, 소비자는 이를 비판하면서도 실제 성능에 기대를 걸고 있습니다. 이런 이중적 태도 자체가 시장이 혼란스러운 상태임을 증명합니다.
주목해야 할 것은 벤치마크 숫자가 아닙니다. 그 모델이 실제 업무 환경에서 얼마나 유용한지, 비용 대비 효용이 어떤지, 장기적으로 지속 가능한 선택인지가 핵심입니다. 딥시크 V4가 가짜 벤치마크 논란을 딛고 실제 성능으로 신뢰를 회복할 수 있을지, 그것이 진짜 질문입니다.
AI 도입 비용 때문에 고민이신가요? 가성비 모델 선택 가이드
벤치마크 숫자보다 더 중요한 건 실제 지갑 사정이죠. 아래 글들이 현실적인 해답이 될 겁니다.
- Kimi K2 솔직 후기: GPT-4 API 비용, 이젠 안녕? – 스타트업 지갑 지키면서도 GPT-4급 성능을 쓰는 현실적인 방법
- 2026년 AI 생존 전략: 똑똑함보다 가성비가 무서운 이유 – 성능 지상주의에서 벗어나 실질적 효율성으로 전환해야 하는 이유







