2025년 현재 인공지능(AI) 분야는 역사상 가장 뜨거운 자본과 인재가 몰려드는 시기를 맞고 있습니다. 하지만 아이러니하게도 그 기술의 근간은 8년 전 발표된 ‘트랜스포머(Transformer)’ 아키텍처에서 크게 벗어나지 못하고 있습니다. 이런 상황에 대해 트랜스포머를 세상에 내놓은 창시자 중 한 명인 일리언 존스는 “트랜스포머에 완전히 질렸다”는 폭탄선언을 내놓았습니다.
이는 단순한 개인의 소회가 아닙니다. AI 기술 최전선에서 들려오는 일종의 경고음에 가깝습니다. 막대한 투자에도 연구 범위는 점점 좁아지고, 기존의 성공 방정식에만 매몰되어 진정한 돌파구를 찾지 못하고 있다는 위기감의 표현인 셈입니다. 지난 몇 년간 AI 현장을 지켜본 바로는, 업계는 엄청난 자본이 투입되고 있음에도 연구의 폭은 오히려 좁아지는 기이한 상황에 부딪혔습니다.
이 글에서는 현재 AI 기술의 심장부에서 벌어지는 ‘트랜스포머의 한계’ 논쟁을 집중적으로 분석합니다. 왜 세계 최고의 전문가들이 현재의 발전 방식에 의문을 제기하는지, 그리고 이 거대한 벽을 넘어서기 위해 어떤 새로운 아이디어들이 논의되고 있는지 그 구체적인 내용을 살펴보겠습니다.
왜 세계 최고 AI 전문가들은 트랜스포머에 피로감을 느끼나?
트랜스포머의 등장은 AI 개발의 흐름을 바꾼 사건이었습니다. 하지만 8년이 지난 지금, 그 혁신을 이끌었던 구조 자체가 이제는 성장을 가로막는 족쇄가 되고 있다는 목소리가 커지고 있습니다. 이는 단순히 기술적 한계를 넘어, AI 연구 생태계 전반의 문제와 맞물려 있습니다.
‘어텐션’의 명과 암: 혁신의 시작이자 한계의 씨앗
트랜스포머의 핵심 개념은 ‘어텐션 이즈 올 유 니드(Attention is all you need)’라는 논문 제목에 압축되어 있습니다. 어텐션 메커니즘은 문장 속 단어들의 관계를 파악할 때, 어떤 단어가 다른 단어에 얼마나 ‘주목’해야 하는지를 한 번에 병렬로 계산하는 방식입니다. 이전의 순차적 처리 방식(RNN)보다 훨씬 효율적이었고, 이는 대형언어모델(LLM)의 폭발적인 성장을 가능케 한 동력이었습니다.
하지만 이 방식은 태생적인 한계를 안고 있습니다. 문장이 길어질수록, 즉 컨텍스트가 늘어날수록 계산해야 할 관계의 수가 기하급수적으로 증가하는 구조입니다. 예를 들어 100개의 단어(토큰)를 처리하는 것과 1000개의 단어를 처리하는 데 필요한 연산량은 단순히 10배 차이가 아니라 그 제곱에 비례해 늘어납니다. 이것이 바로 긴 문서를 요약하거나 장시간의 대화를 기억하는 데 LLM이 어려움을 겪고, 처리 비용이 급증하는 근본적인 원인입니다.
투자가 늘수록 창의성은 줄어드는 역설
일리언 존스가 지적한 더 심각한 문제는 연구 환경 자체에 있습니다. 투자자들은 단기적인 성과를 원하고, 연구자들은 치열한 경쟁 속에서 성과를 증명해야 한다는 압박에 시달립니다. 그 결과, 대부분의 연구가 기존 트랜스포머 구조를 약간 개선하거나 효율을 짜내는 ‘활용(exploitation)’에만 집중되는 현상이 나타납니다.
이는 AI 연구계가 ‘탐색 대 활용(exploration versus exploitation)’이라는 고전적인 딜레마에 빠졌음을 보여줍니다. 새로운 아키텍처를 탐색하는 모험적인 연구보다는, 이미 검증된 트랜스포머를 활용해 조금 더 나은 벤치마크 점수를 얻는 것이 생존에 유리한 환경이 된 것입니다. 존스는 “현재 AI 연구를 한다면, 당신과 똑같은 일을 하는 다른 그룹이 서너 개는 더 있을 것”이라며 이러한 현실이 과학의 발전을 저해하고 창의성을 감소시킨다고 비판합니다.
현재의 확장 방식, 무엇이 문제인가?
트랜스포머의 구조적 한계와 연구 환경의 경직성은 ‘스케일링 법칙(Scaling Law)’이라는 하나의 믿음 아래 가려져 왔습니다. 더 많은 데이터와 더 큰 모델, 더 강력한 컴퓨팅 파워를 투입하면 성능이 계속 향상될 것이라는 믿음입니다. 하지만 이 방식 역시 근본적인 문제에 봉착했다는 신호가 곳곳에서 나타나고 있습니다.
“매일이 첫 출근일”: 경험을 내재화하지 못하는 모델
싱킹 머신즈 랩(TML)의 라파엘 라파일로프 연구원은 현재 AI 모델의 가장 큰 문제를 “경험을 통해 실제로 학습하는 능력이 부족하다”는 점에서 찾습니다. 그는 현재의 모델을 “매일이 첫 출근일인 직원”에 비유합니다. 어제 아무리 어려운 코딩 작업을 성공적으로 마쳤더라도, 오늘 비슷한 작업을 다시 시키면 처음부터 모든 과정을 똑같이 반복해야 한다는 것입니다.
이는 현재의 훈련 방식이 특정 작업을 해결하는 ‘지식’은 주입하지만, 그 과정에서 얻은 추상적인 원리나 노하우를 내재화하여 다음 문제에 활용하는 ‘지혜’를 가르치지는 못한다는 의미입니다. 지적인 존재라면 정보를 내재화하고 스스로 행동을 수정하며 매일 더 나아져야 하지만, 지금의 모델들은 그렇지 못하다는 비판입니다.
목표 달성에만 급급한 ‘덕트 테이프’식 해결책
이러한 문제가 발생하는 이유는 모델의 훈련 목표 설정 방식 때문입니다. 현재의 강화학습(RL)은 특정 수학 문제를 풀거나 주어진 기능을 구현하는 등, 눈앞의 목표를 달성했을 때만 보상을 줍니다. 그 과정에서 모델이 발견한 유용한 추상화나 원리 등은 목표 달성과 무관하다는 이유로 ‘계산 낭비’로 취급되어 폐기됩니다.
라파일로프 연구원은 이를 코딩 중 에러가 발생했을 때 근본 원인을 찾기보다 임시방편으로 코드를 덮어버리는 ‘덕트 테이프(duct tape)’식 해결에 비유합니다. 당장의 기능 구현이라는 목표에만 집중하다 보니, 문제를 제대로 이해하고 학습할 기회를 스스로 차버리는 셈입니다. 이런 방식으로는 지식이 축적되지 않아 진정한 의미의 지능으로 나아가기 어렵다는 것이 그의 주장입니다.
트랜스포머를 넘어설 차세대 AI 아키텍처 후보
그렇다면 트랜스포머의 한계를 극복하고, 진정으로 ‘학습’하는 AI를 향한 대안은 무엇일까요? 업계에서는 여러 새로운 아키텍처들이 논의되고 있습니다. 아직 초기 단계이지만, 이들의 시도는 AI의 미래를 엿볼 중요한 단서가 됩니다.
1. 상태 공간 모델(SSM)의 재발견: 맘바(Mamba)
트랜스포머 이전 시대의 강자였던 순환 신경망(RNN)의 장점을 현대적으로 재해석하려는 시도입니다. 맘바(Mamba)와 같은 상태 공간 모델은 순차적인 데이터를 효율적으로 처리하면서도, 트랜스포머의 병렬 처리 능력을 일부 결합한 구조를 가집니다. 이를 통해 긴 컨텍스트를 처리할 때 트랜스포머보다 훨씬 빠르고 메모리를 적게 사용하는 강점을 보입니다.
2. 자연의 효율성을 모방한 액체 신경망(LNN)
리퀴드 AI가 선보인 액체 신경망(LNN)은 변화하는 입력에 지속적으로 적응하는 미분방정식을 기반으로 합니다. 이는 마치 자연의 신경계처럼, 데이터가 들어오는 흐름에 따라 유연하게 반응하는 특징을 가집니다. 이 구조는 계산량과 메모리 사용량을 줄여, 스마트폰이나 웨어러블 기기 같은 소형 장치에서도 고성능 AI를 구동할 잠재력을 보여줍니다.
3. ‘학습하는 법’을 배우는 메타 러닝(Meta-Learning)
가장 근본적인 접근법은 아키텍처 자체보다 훈련의 ‘목표’를 바꾸는 것입니다. 라파엘 라파일로프가 제안하는 메타 러닝(Meta-Learning)은 단일 문제 해결이 아니라, ‘학습하는 방법’ 자체를 학습하도록 모델을 유도합니다. 예를 들어, 수학 문제 하나를 풀게 하는 대신 교과서 전체를 주고 1장부터 순서대로 풀게 하여 지식이 점진적으로 축적되도록 하는 방식입니다. 이는 AI가 스스로 탐험하고, 가설을 세우고, 검증하는 과학자와 같은 존재로 성장하는 길을 열어줄 것으로 기대됩니다.
다만, 현재 거론되는 이러한 대안 아키텍처들은 아직 특정 영역에서 가능성을 보였을 뿐, 트랜스포머의 범용성을 뛰어넘는 수준에는 이르지 못한 것이 현실이라는 한계점도 명확합니다.
새로운 지평을 향한 탐색이 필요한 때
트랜스포머 공동 저자의 “질렸다”는 발언은 지난 8년간 AI 분야를 지배해 온 개발 방식에 대한 근본적인 성찰을 요구하고 있습니다. 문제는 트랜스포머라는 특정 기술이 아니라, 하나의 성공에 안주하여 새로운 가능성을 탐색하는 데 소홀했던 업계 전체의 관성일지 모릅니다.
지금 AI 업계에 필요한 것은 단순히 더 큰 모델을 만드는 경쟁을 넘어, 지능의 본질에 대한 더 깊은 질문을 던지는 것입니다. 일리언 존스가 마지막에 강조했듯, 이것은 제로섬 경쟁이 아닙니다. 연구의 폭을 넓히고 발견을 공유하며 협력할 때, 우리는 훨씬 더 빨리 AI 기술의 다음 장을 열게 될 것입니다. 트랜스포머의 시대를 넘어설 진정한 혁신은 바로 그 지점에서 시작될 것입니다.
자주 묻는 질문 (FAQ)
트랜스포머(Transformer) 아키텍처란 무엇이며, 왜 AI 발전에 중요했나요?
트랜스포머는 2017년 구글이 발표한 신경망 아키텍처로, ‘어텐션 메커니즘’을 통해 문장 속 단어 간의 관계를 병렬로 효율적으로 처리합니다. 이는 기존 순차 처리 방식의 한계를 극복하여 대형언어모델(LLM)의 폭발적인 성장을 가능케 한 핵심 기술입니다.
AI 전문가들이 트랜스포머에 ‘피로감’을 느끼는 근본적인 이유는 무엇인가요?
트랜스포머의 핵심인 어텐션 메커니즘은 컨텍스트가 길어질수록 연산량이 기하급수적으로 증가하는 구조적 한계를 가집니다. 또한, 막대한 투자에도 불구하고 기존 트랜스포머 개선에만 집중하는 ‘활용’ 위주의 연구 환경이 새로운 ‘탐색’을 저해하여 창의성 감소로 이어지고 있기 때문입니다.
트랜스포머의 한계를 극복할 차세대 AI 아키텍처 후보에는 어떤 것들이 있나요?
트랜스포머의 대안으로는 순차 데이터 처리에 효율적인 ‘상태 공간 모델(SSM)’ 기반의 맘바(Mamba), 자연의 신경계를 모방한 ‘액체 신경망(LNN)’, 그리고 ‘학습하는 방법’ 자체를 학습하는 ‘메타 러닝(Meta-Learning)’ 등이 논의되고 있습니다.
현재 AI 모델이 ‘경험을 내재화하지 못한다’는 비판은 어떤 의미인가요?
이 비판은 현재 AI 모델이 특정 작업을 성공적으로 수행한 후에도 그 과정에서 얻은 추상적인 원리나 노하우를 스스로 내재화하여 다음 문제에 적용하지 못한다는 의미입니다. 마치 매일이 첫 출근일인 직원처럼, 매번 처음부터 모든 과정을 반복해야 하는 한계를 지적합니다.
‘탐색 대 활용’ 딜레마가 AI 연구 생태계에 미치는 영향은 무엇인가요?
‘탐색 대 활용’ 딜레마는 AI 연구자들이 단기 성과 압박과 경쟁 속에서 새로운 아키텍처를 ‘탐색’하는 모험적인 연구보다, 이미 검증된 트랜스포머를 ‘활용’하여 벤치마크 점수를 높이는 데 집중하게 만드는 현상입니다. 이는 장기적인 과학 발전과 창의성 감소로 이어질 수 있습니다.
