트랜스포머 개발자 “질렸다”: AI 시대 전환점, 한계와 대안 분석

8년간 AI를 지배한 트랜스포머 아키텍처의 한계와 균열을 상징하는 이미지. 새로운 차세대 AI 아키텍처의 등장을 암시하는 추상적이고 기하학적인 컨셉 아트.

2017년, 구글 연구원들이 발표한 “Attention Is All You Need” 논문 한 편이 인공지능(AI)의 역사를 바꿨습니다. 이 논문에서 제시된 트랜스포머(Transformer) 아키텍처는 지난 8년간 챗GPT를 포함한 거의 모든 생성 AI의 심장이 되었습니다. 영원할 것 같던 이 기술의 시대에 균열의 목소리가 나오기 시작했습니다. 심지어 그 목소리는 트랜스포머를 탄생시킨 핵심 개발자에게서 시작됐습니다.

논문의 공동 저자 중 한 명인 일리언 존스는 최근 TED AI 컨퍼런스에서 “트랜스포머에 완전히 질렸다”는, 업계로서는 충격적인 발언을 던졌습니다. 세계 최고의 인재와 자본이 몰려들고 있음에도 AI 연구가 위험할 정도로 편협해지고 있다는 날 선 비판이었습니다. 이 발언은 단순한 불평이 아닌, 8년간 이어진 기술 흐름의 전환을 요구하는 중요한 신호로 읽힙니다.

이번 글에서는 트랜스포머가 어떻게 AI의 표준이 되었는지 잠시 돌아봅니다. 그리고 8년이 지난 지금 왜 이런 근본적인 비판에 직면했는지, 그 이면에 숨겨진 기술적 한계를 3가지 관점에서 분석합니다. 마지막으로 트랜스포머의 대안으로 떠오르는 차세대 AI 아키텍처의 가능성까지 조망합니다.

왜 트랜스포머는 AI의 ‘표준’이 되었나?

트랜스포머의 등장은 이전 AI 모델들이 풀지 못했던 언어 처리의 근본적인 문제를 해결하며 순식간에 시장을 장악했습니다.

트랜스포머는 어텐션(Attention) 메커니즘을 기반으로 합니다. 문장 내 단어들의 관계 중요도를 한 번에 계산해, 방대한 데이터의 맥락을 학습하는 신경망 아키텍처입니다. 이전 모델과의 가장 큰 차이점은 바로 이 ‘어텐션’에 있습니다.

작동 원리는 다음과 같습니다.

1. 문장 분해: 먼저 입력된 문장을 ‘토큰’이라는 작은 단위로 나눕니다.
2. 위치 정보 추가: 각 토큰에 순서와 위치 정보를 부여합니다.
3. 어텐션 스코어 계산: 이후 핵심인 어텐션 메커니즘이 작동합니다. 문장 내 한 단어가 다른 모든 단어와 얼마나 깊은 관련이 있는지 한 번에 계산해 ‘스코어’를 매깁니다.
4. 맥락 파악: 이 스코어를 바탕으로 모델은 어떤 단어에 ‘집중(Attention)’해야 문장의 전체 의미를 가장 잘 파악하는지 학습합니다.

기존의 순환 신경망(RNN) 같은 모델은 문장을 처음부터 끝까지 순차적으로 처리했습니다. 이는 문장이 길어질수록 앞부분의 정보를 잊어버리는 ‘장기 의존성 문제’를 낳았죠. 반면 트랜스포머는 모든 단어의 관계를 동시에 병렬로 처리하기에 이런 문제에서 자유로웠습니다. 마치 책 한 권을 처음부터 끝까지 읽는 대신, 질문과 관련된 모든 페이지를 한 번에 펼쳐보는 것과 같은 효율입니다.

그 효과는 GPT 시리즈의 등장으로 증명되었습니다. 대규모 데이터와 컴퓨팅 자원을 활용해 트랜스포머 모델을 사전 훈련(Pre-trained)시키자, 인간과 유사한 수준의 언어 능력을 보여주기 시작했습니다.

다만 이 강력한 아키텍처에도 분명한 한계가 존재합니다. 바로 이 한계점들이 8년이 지난 지금, 개발자의 입에서 “질렸다”는 말이 나오게 만든 근본적인 원인입니다.

8년 만에 드러난 트랜스포머의 3가지 그림자

일리언 존스의 비판은 현재 AI 연구가 직면한 딜레마를 정확히 찌릅니다. 막대한 자원이 투입되지만, 정작 연구 범위는 기존의 성공 공식인 트랜스포머를 약간 개선하는 데만 머물러 있다는 지적입니다. 그 배경에는 아래와 같은 3가지 기술적, 구조적 한계가 자리 잡고 있습니다.

천문학적 비용을 요구하는 ‘스케일링 법칙’의 함정

트랜스포머의 성능은 더 많은 데이터와 더 큰 모델, 즉 ‘규모(Scale)’에 비례한다는 스케일링 법칙 위에 세워졌습니다. 이 법칙 덕분에 AI 성능은 비약적으로 발전했지만, 이제는 성장의 발목을 잡는 족쇄가 되고 있습니다. 모델 개발 비용이 천문학적인 수준으로 치솟았기 때문입니다.

최신 대형언어모델(LLM)을 한 번 훈련하는 데 수천억 원의 비용이 드는 것은 이제 상식입니다. 이는 소수의 빅테크 기업만이 감당할 수 있는 수준이며, 자연스럽게 AI 기술의 중앙집중화를 심화시킵니다. 더 큰 문제는 비용을 쏟아부어도 성능 향상 폭은 점점 둔화하고 있다는 점입니다. 밑 빠진 독에 물 붓기 식의 경쟁 속에서 “이것이 과연 효율적인가?”라는 근본적인 질문이 나옵니다.

비효율적 메모리 구조와 긴 컨텍스트 처리의 어려움

트랜스포머의 핵심인 어텐션 메커니즘은 아이러니하게도 가장 큰 비효율의 원인이기도 합니다. 모든 단어 쌍의 관계를 계산하는 방식은 근본적인 문제를 안고 있습니다. 입력 문장의 길이가 길어질수록 계산량이 기하급수적으로 늘어나는 ‘제곱의 복잡도’ 문제입니다.

예를 들어, 100개 단어를 처리할 때와 1000개 단어를 처리할 때 필요한 계산량은 단순히 10배 차이가 아닙니다. 이는 AI가 한 번에 처리할 수 있는 정보의 양을 제한하고, 실시간으로 방대한 문서를 요약하거나 긴 대화를 기억하는 작업을 어렵게 만듭니다. 업계가 컨텍스트 길이를 늘리기 위해 안간힘을 쓰고 있지만, 이는 아키텍처의 근본적인 비효율을 임시방편으로 막는 것에 가깝습니다.

연구의 편중 현상과 창의성을 저해하는 역설

일리언 존스가 가장 안타까워한 부분은 바로 ‘연구의 고착화’입니다. 그는 “자원이 늘어날수록 창의성이 줄어드는 역설”에 AI 연구계가 직면했다고 지적했습니다. 투자자와 기업은 단기 성과를 위해 검증된 트랜스포머의 개선에만 집중하고, 실패 위험이 큰 새로운 아키텍처 탐색은 꺼리는 경향이 뚜렷합니다.

그는 트랜스포머를 개발할 당시에는 “경영진의 압박 없이 자유롭게 아이디어를 탐구할 시간이 있었다”고 회상했습니다. 지금은 대부분의 연구팀이 비슷한 연구를 하며 서로를 견제하느라 혁신적인 시도를 숨기는 분위기가 팽배하다는 지적입니다. 이는 AI가 가진 ‘탐색 대 활용(exploration versus exploitation)’ 문제와도 맞닿아 있습니다. 현재의 연구는 기존 모델의 ‘활용’에만 극단적으로 치우쳐, 새로운 가능성을 ‘탐색’할 기회를 잃어가고 있습니다.

트랜스포머의 대안, 차세대 AI 아키텍처의 등장

그렇다면 트랜스포머의 대안이 될 차세대 주자는 누구일까요? 아직 지배적인 모델은 없지만, 기존의 한계를 극복하려는 몇 가지 의미 있는 시도들이 나타나고 있습니다.

가장 주목받는 후보 중 하나는 맘바(Mamba) 로 대표되는 ‘상태 공간 모델(SSM)’입니다. 맘바는 RNN처럼 정보를 순차적으로 처리하면서도, 중요한 정보만 선택적으로 압축해 기억하는 방식으로 트랜스포머의 계산 비효율 문제를 해결하려 합니다. 특히 긴 시퀀스 데이터 처리에서 강점을 보여, 유전체학이나 시계열 분석 등에서 먼저 두각을 나타내는 중입니다.

리퀴드 AI가 선보인 액체 신경망(LNN, Liquid Neural Network) 도 흥미로운 접근입니다. 단순한 생명체의 신경계에서 영감을 받아, 입력값에 따라 내부 매개변수를 지속적으로 조정하는 유연한 구조를 가집니다. 이는 고정된 구조의 트랜스포머보다 변화하는 환경에 더 잘 적응할 잠재력을 보여줍니다.

최근에는 이미지 생성에 주로 쓰이던 디퓨전(Diffusion) 모델을 언어 모델에 접목하려는 연구도 활발합니다. 노이즈를 점진적으로 제거하며 데이터를 생성하는 방식으로, 보다 정교하고 창의적인 결과물을 만들 수 있을 것으로 기대됩니다.

다만, 이들 아키텍처는 아직 특정 작업에서 가능성을 보였을 뿐, 트랜스포머의 범용성을 넘어서기까지는 추가적인 연구와 검증이 필요합니다. 중요한 것은 결과가 아니라 방향성입니다. 일리언 존스가 “경쟁이 아닌 협력”을 외친 것처럼, AI 커뮤니티가 트랜스포머라는 안전지대에서 벗어나 탐구의 폭을 넓히고 그 결과를 공유할 때, 우리는 훨씬 더 빨리 다음 단계의 혁신에 도달하게 될 것입니다. 그의 “질렸다”는 외침은 끝이 아닌, 새로운 시작을 촉구하는 건강한 자성의 목소리인 셈입니다.

자주 묻는 질문 (FAQ)

트랜스포머 아키텍처란 무엇인가요?

트랜스포머는 2017년 구글이 발표한 신경망 아키텍처로, ‘어텐션(Attention)’ 메커니즘을 기반으로 문장 내 단어들의 관계 중요도를 병렬로 계산하여 방대한 데이터의 맥락을 학습합니다. 챗GPT를 포함한 대부분의 생성 AI 핵심 기술로 활용됩니다.

트랜스포머 공동 개발자가 “질렸다”고 말한 이유는 무엇인가요?

트랜스포머 공동 개발자 일리언 존스는 AI 연구가 위험할 정도로 편협해지고, 막대한 자원에도 불구하고 기존 트랜스포머 개선에만 머물러 창의성이 저해되는 현상에 대해 비판하며 “질렸다”는 발언을 했습니다. 이는 기술 고착화에 대한 경고입니다.

트랜스포머의 주요 기술적 한계 3가지는 무엇인가요?

트랜스포머의 주요 한계는 첫째, 천문학적 비용을 요구하는 ‘스케일링 법칙’의 함정, 둘째, 입력 길이가 길어질수록 계산량이 기하급수적으로 늘어나는 ‘제곱의 복잡도’ 문제, 셋째, 연구의 편중 현상으로 인한 창의성 저해입니다.

맘바(Mamba) 모델은 트랜스포머의 어떤 한계를 극복하려 하나요?

맘바(Mamba)는 상태 공간 모델(SSM) 기반으로, RNN처럼 정보를 순차 처리하면서도 중요한 정보만 선택적으로 압축해 기억합니다. 이는 트랜스포머의 ‘제곱의 복잡도’로 인한 계산 비효율과 긴 컨텍스트 처리의 어려움을 해결하려는 시도입니다.

차세대 AI 아키텍처의 등장이 AI 연구에 어떤 영향을 미칠까요?

맘바, 액체 신경망 등 차세대 AI 아키텍처의 등장은 트랜스포머 중심의 연구 고착화를 벗어나 AI 커뮤니티가 탐구의 폭을 넓히고 새로운 가능성을 모색하게 할 것입니다. 이는 장기적으로 AI 기술 혁신을 가속화하는 건강한 전환점이 될 수 있습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다