스케일링 법칙의 한계와 프랑수아 숄레가 제시한 새로운 AI 지능 지표 ARC-AGI를 분석합니다. 텍스트 암기를 넘어선 순수한 추론 능력을 확인하고 비즈니스 대응 전략을 세워보세요.
오픈AI가 최신 추론 모델의 벤치마크 점수를 발표하며 인공일반지능(AGI)의 시대가 머지않았다고 호언장담했습니다. 매주 새로운 모델이 쏟아지고 리더보드 순위가 뒤바뀌는 광경을 보면 기계가 인간을 추월하는 건 시간문제처럼 보입니다. 하지만 화려한 점수 이면에는 풀리지 않는 의구심이 따라붙습니다.
방대한 컴퓨팅 자원을 쏟아부어 수만 번의 시행착오 끝에 얻어낸 정답을 진정한 지능이라 부를 수 있을까요? 기출문제를 달달 외워 만점을 받은 수험생을 천재라고 치켜세우지는 않습니다. 벤치마크 점수 인플레이션이 가속화되는 지금, 우리는 AI의 진짜 실력을 측정할 완전히 새로운 잣대를 마주해야 합니다. 스케일링 법칙이라는 종교에 의문을 제기하며 등장한 ARC-AGI를 통해 지능의 본질을 다시 정의해 봅니다.
1. 벤치마크의 함정과 프랑수아 숄레의 일침
변호사 시험부터 의사 국가고시, 고난도 코딩 테스트까지 현존하는 AI 모델들은 상위 1%의 성적을 가볍게 찍어내고 있습니다. 구글 엔지니어이자 딥러닝의 대중화를 이끈 케라스 창시자 프랑수아 숄레는 이런 현상에 냉소적입니다. 그는 대형언어모델이 보여주는 퍼포먼스를 지능이라 부르기를 거부합니다. 인터넷에 떠도는 수조 개의 데이터를 집어삼키고 그 안에서 정교한 패턴을 찾아낸 암기의 결과물일 뿐이라는 지적입니다.
그가 말하는 지능의 핵심은 지식의 축적이 아닌 학습 효율성에 있습니다. 이미 배운 데이터를 그럴듯하게 버무리는 숙련도가 아니라, 생전 처음 마주하는 환경에서 얼마나 적은 정보로 규칙을 깨우치는지가 관건입니다. 인간은 부모의 장황한 설명 없이도 몇 번의 경험만으로 중력이나 물체의 움직임을 이해합니다. 반면 현재의 AI는 똑같은 원리를 배우기 위해 어마어마한 전력과 데이터를 탕진합니다.
ARC-AGI는 바로 이 지점에서 출발했습니다. 숄레는 언어라는 포장지를 걷어내고 순수한 인지 능력을 평가하는 시험대를 만들었습니다. 모델의 덩치를 키우고 데이터를 더 때려 박으면 모든 문제가 해결될 것이라는 실리콘밸리의 맹신에 묵직한 제동을 건 셈입니다.

2. 언어를 걷어낸 순백의 퍼즐: ARC-AGI의 작동 방식
이 테스트는 텍스트 질의응답을 철저히 배제합니다. 대신 다양한 색상의 사각형 블록이 놓인 격자무늬 퍼즐을 제시합니다. 모델에게 주어지는 단서는 입력과 출력으로 구성된 단 두세 개의 예시 이미지뿐입니다. AI는 이 시각적 단서만으로 숨겨진 변환 규칙을 스스로 추론해 새로운 문제의 정답 격자를 그려내야 합니다.
최근 공개된 ARC-AGI V3는 한술 더 뜹니다. 기존 모델들이 연산력을 동원해 꼼수로 점수를 올리는 것을 막기 위해 에이전틱 지능을 측정하는 방식을 도입했습니다. 목표나 지시 사항을 알려주지 않은 채 AI를 낯선 미니 게임 환경에 던져버립니다. AI는 직접 부딪히며 게임의 룰을 파악하고 물리 세계의 기본 상식을 증명해야 합니다.
여기서 필요한 건 인간이 태생적으로 갖춘 네 가지 핵심 지식입니다. 물체가 가려져도 사라지지 않는다는 물체성, 움직임의 의도를 파악하는 행위 주체성, 공간의 경계를 이해하는 구조적 감각, 그리고 기초적인 숫자 개념이 그것입니다. 기존 언어모델은 이런 직관적 지식을 확률적으로 찍어 맞출 뿐, 본질적으로 이해하지 못한다는 사실을 이 테스트는 날카롭게 파고듭니다.

3. 스케일링 법칙의 한계와 두 갈래의 탈출구
실제 테스트 결과는 가혹했습니다. 인간은 아무 정보 없이도 몇 번의 클릭만으로 100점에 가까운 정답률을 기록했습니다. 하지만 현존하는 최고 성능의 모델들은 물리적 논리 앞에 무너지며 1점대를 넘기지 못하는 굴욕을 맛봤습니다. 기계의 지능이 반드시 인간의 학습 방식을 닮아야 하느냐는 비판도 있지만, 지금의 방식으로는 한계가 명확하다는 신호임은 분명합니다.
업계는 이제 두 가지 대안을 모색하고 있습니다. 숄레가 제안한 심볼리카 AI의 프로그램 합성 방식이 첫 번째입니다. 다음 단어를 확률적으로 예측하는 대신, 논리적 가설을 세우고 이를 해결할 소스코드를 모델이 직접 짜서 검증하는 방식입니다. 실제로 이 접근법을 통해 V3 테스트에서 36점을 기록하며 가능성을 증명했습니다. 우주의 복잡한 현상을 짧은 공식 하나로 압축하듯, 지능 역시 방대한 데이터의 나열이 아닌 정교한 논리 코드로 구현될 수 있다는 관점입니다.
구글의 제프 딘이 주장하는 동적 상호작용은 또 다른 길입니다. 그는 텍스트 데이터의 고갈을 걱정할 필요가 없다고 말합니다. 유튜브 영상에는 유리잔이 깨지는 물리적 상식이 가득하며, 이를 시각과 청각으로 동시에 배우면 추론 능력이 비약적으로 상승한다는 논리입니다. AI가 가상 환경에서 행동하고 피드백을 받는 과정 자체가 무한한 양질의 데이터가 됩니다. 스케일링의 방향을 단순 암기에서 동적인 경험으로 틀겠다는 전략입니다.
4. 껍데기뿐인 성능에 속지 않는 선구안
AI가 언어를 넘어 진정한 인지와 추론의 영역으로 진입하는 시기입니다. 기술 도입을 고민할 때 공급사가 내세우는 매개변수 숫자나 시험 성적표에만 매몰되어서는 안 됩니다. 현장에 닥칠 예기치 못한 변수를 해결해 줄 진짜 똑똑한 AI를 고르는 기준이 필요합니다.
먼저 조직 내부의 예외 상황을 반영한 테스트 베드를 직접 만드십시오. 이미 매뉴얼화된 과거 데이터로 평가하는 건 의미가 없습니다. 고객 상담이라면 당일 아침에 바뀐 정책을 던져주었을 때, 코딩이라면 듣도 보도 못한 사내 프레임워크의 에러를 맡겼을 때 AI가 어떻게 반응하는지 봐야 합니다. 과거 패턴을 억지로 끼워 맞추며 환각을 일으키는지, 아니면 스스로 원인을 추론하는지 관찰하는 것이 핵심입니다.
프롬프트 엔지니어링에 매달리기보다 자체 검증 루프를 설계하는 데 투자하십시오. 인간이 일일이 규칙을 지시하는 방식은 한계가 명확합니다. 모델이 결과물을 낸 뒤 샌드박스 환경에서 스스로 테스트하고 실패 원인을 분석해 수정하는 파이프라인을 구축해야 합니다. 적은 데이터로도 결함을 찾아 고치는 능력이 바로 우리가 기대하는 진짜 에이전틱 지능입니다.
2030년대는 기계의 학습 효율성이 인간의 직관에 육박하는 시대가 될 것입니다. 무식하게 책을 통째로 외우는 AI는 도태됩니다. 원리를 깨우치고 응용할 줄 아는 전략가들이 그 자리를 대신할 것입니다. 지금 당신의 곁에 있는 AI는 단순한 앵무새입니까, 아니면 스스로 규칙을 찾아내는 파트너입니까?






