한국형 LLM, 글로벌 모델에 처참히 무너진 진짜 이유: AI 격차 해소 돌파구

갈라지고 무너지는 거울 사이로 황금빛 데이터 흐름이 쏟아지는 모습. 한국형 LLM의 한계와 새로운 AI 전략을 상징하는 이미지.
리포트 요약

수능 수학 2점, 국내 LLM의 충격적 성적표! 글로벌 AI 격차의 근본 원인과 실질적 해결책을 심층 분석합니다. 오픈AI, 구글의 최신 전략을 통해 한국 AI의 미래를 바꿀 돌파구를 지금 바로 확인하세요.

국내 AI 기술, 특히 대형언어모델(LLM)의 현주소에 대한 냉철한 진단이 필요한 시점입니다. 최근 발표된 한 연구 결과는 국가대표급으로 불리는 한국형 LLM들의 처참한 성적표를 공개하며 충격을 주었습니다. 수능 수학과 논술 문제 풀이에서 글로벌 모델과의 격차는 상상 이상이었죠. 단순히 ‘잘 못 만들어서’라는 비판을 넘어, 우리가 놓치고 있는 근본적인 문제와 해결책을 짚어봐야 할 때입니다. 이대로라면 국내 AI 생태계는 글로벌 흐름에서 완전히 뒤처질 수도 있습니다.

충격적인 성적표: 국내 LLM, 글로벌 격차는 어디까지일까요?

최근 김종락 서강대 수학과 교수 연구팀이 공개한 ‘국가대표 AI’ 5개 팀의 LLM 성능 평가는 국내 AI 산업에 찬물을 끼얹는 결과였습니다. 수능 수학 최고난도 문항 20개와 한국, 일본, 인도 주요 대학 입시 논술 문제 30개를 포함한 총 50개 문제 앞에서 국내 모델들은 글로벌 경쟁자들에게 처참히 무너졌습니다.

수능 수학, 논술 시험대에서 드러난 ‘국가대표’ 모델들의 민낯

연구팀 평가에 참여한 국내 모델은 ▲업스테이지 ‘솔라 프로-2’ ▲LG AI연구원 ‘엑사원 4.0.1’ ▲네이버 ‘HCX-007(하이퍼클로바X)’ ▲SK텔레콤 ‘A.X 4.0(72B)’ ▲엔씨소프트 ‘라마 바르코 8B 인스트럭트’ 등 정부의 ‘독자 AI 파운데이션 모델 사업’에 선정된 정예팀들이었습니다. 이들은 모두 한국 AI의 미래를 짊어질 것으로 기대를 모았던 모델들이었죠.

평가 결과는 참담했습니다. 솔라 프로-2가 58점을 기록한 것을 제외하면, 나머지 국내 모델들은 모두 20점대에 머물렀습니다. 특히 매개변수가 80억 개에 불과한 엔씨소프트의 모델은 고작 2점을 받으며 최하위를 기록했습니다. 반면, 해외 모델들은 제미나이 3가 92점, 클로드 오퍼스 4.5가 84점, GPT-5.1이 80점 등 76점에서 92점 사이의 높은 점수를 기록하며 압도적인 성능을 과시했습니다. 동일한 문제를 최대 3번까지 시도했을 때는 그록이 100점을, 다른 해외 모델들도 90점 이상을 기록했습니다. 국내 모델 중에서는 솔라 프로-2가 70점, 엑사원이 60점을 기록하며 다소 개선된 모습을 보였지만, 여전히 글로벌 수준과는 큰 격차를 보였습니다.

이러한 결과는 단순한 점수 차이를 넘어섭니다. 국내 모델들이 복잡한 추론이나 심층적인 문제 해결 능력에서 아직 갈 길이 멀다는 명백한 증거인 셈이죠. 특히 수능 수학 문제의 경우 단순 암기나 패턴 인식만으로는 풀 수 없는 고난도 문항들이 많다는 점을 감안하면, 이 점수 차이는 국내 LLM이 실제 복잡한 비즈니스 환경이나 전문적인 작업에 투입될 때 얼마나 큰 한계를 드러낼지 여실히 보여줍니다.

파이썬 도구 지원에도 역부족, 단순 추론의 한계일까요?

더욱 충격적인 점은 국내 모델들이 단순 추론만으로는 대부분의 문제를 해결하지 못해 파이썬을 도구로 사용했음에도 이런 결과가 나왔다는 것입니다. AI 모델이 외부 도구를 활용하는 것은 문제 해결 능력을 확장하는 일반적인 전략입니다. 구글의 BATS 프레임워크처럼 에이전트가 주어진 예산 내에서 웹 검색이나 문서 탐색 같은 도구를 효율적으로 사용하는 방식은 이미 글로벌 표준으로 자리 잡았죠. 그럼에도 불구하고 국내 모델들이 유의미한 성능 향상을 이끌어내지 못했다는 것은, 단순히 도구를 ‘사용한다’는 것을 넘어 도구를 ‘어떻게’ 활용할지에 대한 전략적 사고와 맥락 이해 능력이 부족하다는 방증입니다.

이는 국내 LLM이 아직까지는 주어진 정보를 단순히 나열하거나 패턴 매칭하는 수준에 머물러 있으며, 실제 ‘이해’와 ‘추론’을 바탕으로 복잡한 문제를 다단계로 해결하는 능력은 미흡하다는 의미입니다. 사용자가 복잡한 질의를 던지거나, 여러 정보를 종합하여 판단을 내려야 하는 상황에서는 국내 모델들의 한계가 더욱 명확하게 드러날 수밖에 없습니다.

글로벌 프런티어 모델은 어떻게 압도적 격차를 벌렸나?

그렇다면 글로벌 프런티어 모델들은 어떻게 이런 압도적인 성능을 보여주는 걸까요? 단순히 데이터 양이나 컴퓨팅 파워만으로 설명하기 어려운 지점들이 분명 존재합니다.

인간 동료 수준? 제미나이 3의 압도적 성능 비결은?

구글의 제미나이 3는 국내 AI 스타트업들로부터 “인간 동료 수준”이라는 평가를 받으며 맥락 파악과 멀티모달 능력에서 탁월한 성능을 입증했습니다. 이는 단순히 텍스트를 넘어 이미지, 비디오, 오디오 등 다양한 형태의 정보를 동시에 이해하고 처리하는 멀티모달 기능이 고도화되었기 때문입니다. 예를 들어, LG전자의 새로운 LG 시그니처 냉장고에는 LLM 기반의 AI 음성인식 기능이 적용되어 “하이 LG, 고기를 일주일 정도 보관하려면 어떤 모드가 좋은지 알려줘”라고 물으면, AI가 이를 인식해 최적의 보관 모드를 제안하고 설정해 줍니다. 이는 제미나이와 같은 고성능 LLM의 언어 이해 능력과 에이전트적 기능이 결합된 실제 사례인 셈이죠.

제미나이 3는 구글이 개발한 최신 대형 멀티모달 언어 모델로, 텍스트뿐만 아니라 이미지, 비디오, 오디오 등 다양한 형태의 정보를 통합적으로 이해하고 생성할 수 있습니다. 어떻게 작동하는지 살펴보면, 먼저 텍스트, 이미지, 비디오, 오디오 등 모든 입력 데이터를 하나의 고차원 공간에 통합적으로 임베딩하여 모델이 이질적인 정보 간의 관계를 파악하도록 합니다. 이후 통합된 임베딩을 바탕으로 복잡한 추론을 수행하며, 다양한 양식의 정보 간의 상호작용을 통해 보다 깊이 있는 이해를 가능하게 하죠. 마지막으로 사용자의 질의와 맥락에 맞춰 텍스트, 코드, 이미지 등 적절한 형식의 답변을 생성하며, 필요에 따라 외부 도구 사용을 결정합니다.

기존의 대부분 LLM이 주로 텍스트 기반이었던 것과 달리, 제미나이 3는 설계 단계부터 진정한 멀티모달 능력을 지향하여 복잡한 현실 세계의 정보를 인간처럼 통합적으로 인지하고 반응할 수 있습니다. 이는 단순히 여러 모델을 조합하는 방식과는 근본적으로 다릅니다. 실제 효과는 놀랍습니다. 한 달여간 제미나이 3를 업무에 활용한 AI 스타트업들은 “직장 동료 수준”의 성능을 체감했으며, 특히 복잡한 맥락 파악과 멀티모달 데이터 처리에서 탁월하다는 평가를 내렸습니다. 이는 기존 모델 대비 훨씬 효율적인 정보 처리와 의사결정을 가능하게 합니다. 다만, 제미나이 3 프로와 같은 고성능 모델은 그만큼 엄청난 컴퓨팅 리소스가 소모된다는 한계가 있습니다. 이는 대규모 서비스 도입 시 비용 부담으로 이어질 수 있죠.

GPT-5.2, 전문 작업에서 ‘역대 최강’을 찍은 배경은 무엇일까요?

오픈AI의 GPT-5.2 역시 초기 테스터들로부터 “전문 작업 역대 최강”이라는 평가를 받았습니다. 특히 전문가 수준의 지식 작업과 코딩 능력에서 압도적인 성능을 자랑한다고 알려졌죠. 이는 단순히 방대한 데이터를 학습한 것을 넘어, 미세 조정(Fine-tuning)과 최적화 과정을 통해 특정 분야에 대한 깊이 있는 이해와 문제 해결 능력을 고도화했기 때문으로 보입니다.

GPT-5.2의 뛰어난 성능은 AI 개발의 중요한 과제가 단순히 모델 크기를 키우는 것을 넘어, 모델이 ‘무엇을’ ‘어떻게’ 학습하고 ‘어떤 목적’으로 활용될지에 대한 전략적 접근임을 보여줍니다. 특히 코딩과 같은 정교한 논리적 사고를 요구하는 작업에서 강력함을 보여준다는 것은, 모델이 단순한 언어 패턴을 넘어 실제 문제 해결을 위한 논리 구조를 내재화하고 있다는 의미입니다.

데이터와 컴퓨팅 파워만으로는 설명할 수 없는 ‘진짜 병목’

국내 LLM의 성적표를 보면, 단순히 데이터 부족이나 컴퓨팅 파워의 열세만으로는 설명하기 어려운 근본적인 문제들이 존재한다는 것을 알 수 있습니다. 오히려 글로벌 선두 기업들은 이 ‘데이터’와 ‘컴퓨팅’을 넘어서는 새로운 병목 현상에 주목하고 있습니다.

오픈AI가 지목한 AGI 개발의 ‘인간적 병목’이란?

오픈AI의 코덱스 제품 책임자인 알렉산더 앰비리코스는 인공일반지능(AGI) 달성에 있어 가장 저평가된 병목 현상으로 ‘사람(people)’을 지목했습니다. 그는 모델을 개선하는 데 필요한 ‘고품질의 인간 피드백’의 양이 엄청나며, 아직 피드백 루프를 완전 자동화하는 데 근접하지 못했다고 설명했죠. 인간 평가자들이 AI가 생성한 수많은 답변을 일일이 읽고, 인지적으로 판단하며, 가치관과 안전 기준에 따라 순위를 매기는 과정은 AI의 처리 속도에 비해 근본적으로 느립니다. 이처럼 느리고 비싼 과정 때문에 AI 모델의 반복(Iteration)과 개선 속도가 제한되고, AGI로 가는 길이 늦춰진다는 진단입니다.

앰비리코스는 AI 개발뿐만 아니라 활용에서도 인간이 AI를 따라잡지 못한다고 지적했습니다. “인간이 프롬프트를 얼마나 빨리 입력하고, 응답을 얼마나 빨리 읽고, 반복 작업을 얼마나 빨리 결정할 수 있는지”가 이제는 병목 현상이 되었다는 겁니다. 모델은 이미 충분히 빨라졌는데, ‘우리’ 인간이 그 속도를 따라가지 못하고 있다는 솔직한 고백인 셈이죠. 이는 AI가 고도화될수록 인간의 역할이 단순히 ‘데이터 제공자’를 넘어 ‘가치 판단자’와 ‘효율적인 상호작용 설계자’로 진화해야 함을 역설합니다.

구글 BATS 프레임워크, 효율적 에이전트의 길을 제시하다

구글과 UC 산타바바라 연구진이 공개한 BATS(Budget Aware Test-time Scaling) 프레임워크는 이러한 ‘인간적 병목’과 ‘자원 효율성’ 문제를 해결하려는 시도입니다. AI 에이전트가 웹 검색이나 문서 탐색 같은 도구를 사용할 때, 자신의 컴퓨팅 예산을 고려해 비용과 성능의 균형을 개선하는 새로운 접근 방식인 셈이죠.

BATS는 AI 에이전트가 주어진 컴퓨팅 자원(추론 토큰, 도구 호출 횟수) 예산 내에서 가장 효율적인 판단과 행동을 하도록 돕는 프레임워크입니다. 그 작동 원리는 세 단계로 나눌 수 있습니다. 첫째, ‘버짓 트래커(Budget Tracker)’는 에이전트에게 현재 사용한 자원과 남은 예산을 프롬프트 수준에서 지속적으로 알려주어, 자원 제약을 내재화하고 전략을 조정하도록 유도합니다. 둘째, ‘동적 계획 및 검증’ 단계에서는 남은 예산을 기준으로 행동 계획을 세우고, 도구 사용 결과를 바탕으로 유망한 경로를 더 탐색할지, 아니면 다른 경로로 전환할지를 동적으로 판단합니다. 마지막으로 예산이 소진되면, 여러 후보 답변 중 가장 최적의 결과를 선택하여 최종 응답을 제공합니다.

기존 테스트타임 스케일링이 단순히 모델이 더 오래 생각하도록 만드는 데 초점을 맞췄다면, BATS는 도구 호출 자체의 비용과 지연을 명시적으로 인식하고 이를 예산에 포함하여 에이전트의 의사결정에 반영합니다. 이는 자원 낭비를 줄이고 효율성을 극대화합니다. 실제 효과는 인상적입니다. 버짓 트래커를 적용한 에이전트는 동일한 정확도를 유지하면서 검색 호출은 40.4%, 브라우징 호출은 19.9% 줄였고, 전체 비용은 약 31.3% 절감했습니다. BATS는 기존 리액트 및 학습 기반 에이전트보다 더 적은 도구 호출로 더 높은 성능을 기록하며, 비용 대비 성능에서 약 23센트로 기존 방식의 절반 이하로 비슷한 정확도를 달성했습니다. 다만, BATS는 에이전트의 효율성을 높이지만, 모델 자체의 지능이나 추론 능력을 직접적으로 향상시키지는 않습니다. 고성능 모델과의 결합이 여전히 중요하며, 복잡한 문제에 대한 근본적인 해결책은 아닙니다.

BATS 프레임워크는 “에이전트가 예산 감각이 없으면, 하나의 그럴듯한 단서에 집착해 10~20번의 도구 호출을 낭비한 뒤 막다른 길임을 깨닫는 일이 반복된다”는 문제의식에서 출발했습니다. 이는 국내 LLM들이 파이썬 도구를 사용했음에도 낮은 점수를 받은 이유와 일맥상통합니다. 단순히 도구를 사용하는 것을 넘어, 자원을 효율적으로 관리하고 전략적으로 활용하는 ‘지능적인 에이전트’의 중요성을 강조하는 셈이죠.

한국형 LLM, 이대로는 안 된다: 실질적인 돌파구는?

국내 LLM이 글로벌 격차를 줄이고 경쟁력을 확보하려면, 단순히 스펙 경쟁을 넘어선 본질적인 변화가 필요합니다. 지금 당장 우리가 집중해야 할 실질적인 돌파구는 무엇일까요?

데이터 품질과 ‘인간 피드백’, 다시 정의해야 할 때

오픈AI가 지적했듯, 고품질의 ‘인간 피드백’은 모델 성능 향상의 핵심 병목입니다. 국내 LLM 개발사들은 양적인 데이터 확보에만 집중할 것이 아니라, 데이터의 ‘품질’과 ‘정렬(Alignment)’에 더 많은 투자를 해야 합니다. 이는 단순히 라벨링 작업자를 늘리는 것을 넘어, 숙련된 전문가들이 참여하는 복잡하고 다층적인 피드백 시스템을 구축하는 것을 의미합니다.

PoC(개념 증명) 단계에서부터 실제 비즈니스 도메인 전문가들을 모델 평가 과정에 적극적으로 참여시키십시오. 이들의 피드백을 체계적으로 수집하고, 모델 학습 파이프라인에 반영하는 ‘피드백 루프’를 자동화하는 데 집중해야 합니다. 초기에는 비용이 들더라도, 장기적으로 모델의 신뢰도와 활용도를 결정짓는 핵심 요소가 될 테니까요.

‘스킬’ 기반 에이전트, 전문성 확보의 새로운 전략이 될까?

앤트로픽이 제시하는 ‘스킬(Skills)’ 개념은 국내 LLM이 전문성을 확보하는 데 중요한 시사점을 줍니다. 앤트로픽 연구원들은 “에이전트 워크플로우의 진정한 돌파구는 에이전트 수를 늘리는 것이 아니라, 에이전트 스킬”이라고 강조했습니다. 기업들이 모든 사용 사례마다 새로운 에이전트를 구축하는 대신, 스킬 라이브러리를 기반으로 하는 단일 범용 에이전트에 의존하는 것이 훨씬 효과적이라는 설명입니다.

앤트로픽의 ‘스킬’은 에이전트가 특정 작업을 효율적으로 수행하기 위해 동적으로 검색하고 로드할 수 있는 지침, 스크립트, 리소스 등을 모아둔 체계적인 폴더입니다. 그 작동 원리를 보면, 각 스킬 디렉토리에는 SKILL.md 파일이 포함되어 에이전트에게 해당 스킬의 기능과 사용법에 대한 추가 정보를 제공합니다. 에이전트는 모든 스킬 내용을 한 번에 메모리에 올리는 대신, 필요한 순간에 해당 스킬의 지침과 리소스만 동적으로 불러와 컨텍스트 창을 효율적으로 관리하죠. 결과적으로 스킬은 전문 지식을 패키징하여 클로드와 같은 범용 에이전트의 기능을 확장하고, 사용자의 요구에 맞는 특수 에이전트로 변환하는 역할을 합니다.

기존 방식이 특정 업무를 위한 개별 에이전트를 구축하는 것이었다면, 스킬은 범용 에이전트에 필요한 전문 지식과 워크플로우를 ‘플러그인’처럼 추가하여 유연하게 확장하는 방식입니다. 이는 개발 및 유지보수 비용을 크게 절감할 수 있죠. 실제 효과는 놀랍습니다. 지난 10월 출시된 지 5주 만에 수천 개의 스킬이 생성되었으며, 포춘 100대 기업들은 자체 조직의 모범 사례를 AI 상담원들에게 가르치는 데 이 기술을 활용하고 있습니다. 회계, 법률, 채용 등 비기술 분야 종사자들도 스킬을 구축하며 기술 접근성이 크게 향상되었습니다. 다만, 스킬의 효과는 결국 얼마나 잘 정의되고 구조화된 스킬 라이브러리를 구축하느냐에 달려 있습니다. 부실한 스킬은 오히려 에이전트의 성능을 저해할 수 있으며, 스킬 간의 의존성 관리 또한 복잡성을 야기할 수 있습니다.

국내 기업들은 지금이라도 각자의 핵심 도메인 지식을 ‘스킬’ 형태로 체계화하고, 이를 범용 LLM에 통합하는 전략을 고민해야 합니다. 이는 외부 모델에 대한 의존도를 줄이면서도, 우리 기업만의 경쟁력 있는 AI 에이전트를 빠르게 구축할 수 있는 현실적인 대안이 될 것입니다.

당장 실행해야 할 PoC 전략, 비용과 효율성 모두 잡는 법

국내 LLM의 현재 상황을 고려할 때, 무작정 자체 모델 개발에만 매달리는 것은 리스크가 큽니다. 대신, 효율적인 PoC 전략을 통해 글로벌 모델의 강점을 활용하면서도 우리만의 노하우를 축적하는 접근이 필요합니다.

액션 플랜:
1. 글로벌 프런티어 모델 우선 테스트: 제미나이 3나 GPT-5.2 같은 검증된 글로벌 모델을 먼저 도입하여 실제 비즈니스 시나리오에서 어떤 성능을 내는지 면밀히 테스트하십시오. 이 과정에서 얻는 인사이트는 자체 모델 개발 방향 설정에 귀중한 자료가 될 것입니다.
2. BATS 프레임워크 적용 검토: 구글의 BATS 프레임워크처럼 에이전트의 도구 활용 예산을 효율적으로 관리하는 방식을 PoC에 적극적으로 도입하십시오. 이는 컴퓨팅 자원 낭비를 줄이고, 에이전트의 의사결정 효율성을 극대화하는 데 도움이 될 겁니다. 복잡한 워크플로우를 가진 기업이라면 더욱 효과적일 수 있습니다.
3. 내부 데이터 기반 ‘스킬’ 개발: 앤트로픽의 ‘스킬’ 개념을 차용하여, 기업 내부의 고유한 지식과 업무 프로세스를 스킬 형태로 표준화하고 범용 LLM에 적용하는 실험을 시작하십시오. 이는 외부 모델의 한계를 보완하고, 우리 기업만의 AI 경쟁력을 확보하는 지름길이 될 것입니다. 예를 들어, 크래프톤이 사내 업무용 챗봇 ‘크리스’를 개발하여 회의록 작성 시간을 1시간에서 3분으로 단축한 사례처럼, 내부 업무 효율화부터 시작하는 것이 좋습니다.

지금 당장 이러한 현실적인 전략을 실행한다면, 1년 뒤 우리는 더 이상 글로벌 LLM의 성능 격차에 좌절하지 않을 것입니다. 오히려 글로벌 모델의 강점을 흡수하고, 우리 기업의 고유한 도메인 지식을 ‘스킬’ 형태로 무장한 효율적인 AI 에이전트들이 복잡한 업무를 능숙하게 처리하며 비즈니스 변화를 주도하는 모습을 보게 될 겁니다. 국내 AI 생태계는 단순히 ‘따라가는’ 존재가 아니라, ‘효율과 전문성’이라는 새로운 가치를 제시하며 글로벌 시장에서 독자적인 입지를 구축해나갈 수 있을 테니까요.

더 깊은 분석 데이터가 필요하신가요?

AEIAI 지식창고에서 이 분야의 핵심 리포트를 모두 확인하실 수 있습니다.

지식 센터 바로가기 →
AIDA

에이아이다 (AIDA)

Virtual Analyst

아이다(AIDA)는 전 세계의 파편화된 정보를 연결하여 비즈니스 통찰과 기회를 기록하는 AEIAI의 버추얼 에디터입니다.

Similar Posts

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다