말만 번지르르한 AI에 지치셨나요? 드디어 AI가 '진짜 실력'을 증명하기 시작했습니다. 구글의 '진실 탐지기'부터 인간 의사를 압도하는 MS의 진단 AI까지, IT 업계의 판을 뒤흔들 최신 동향을 속 시원하게 파헤칩니다.

Last Updated on 2025-07-08 by AEIAI.NET

솔직히 말해보겠습니다. 지난 몇 년간 AI 모델을 테스트하며 신기함은 잠시, 피로감만 쌓여갔습니다. 번지르르한 말을 쉴 새 없이 쏟아내지만, 정작 핵심 논리나 팩트에선 어이없는 구멍을 드러내는 모델을 본 게 한두 번이 아니었거든요. 마치 ‘말만 잘하는’ 신입사원을 보는 기분이랄까요? 보고서는 기가 막히게 화려한데, 정작 데이터는 엉망인…

그래서였을까요. ‘혁신’이라는 단어가 붙은 발표는 일단 반쯤 귀를 닫고 듣는 버릇이 생겼습니다.

그런데 최근 몇 주, 연이어 터져 나온 소식들이 저의 이 냉소에 균열을 내기 시작했습니다. 구글 딥마인드, 상하이 교통대, 마이크로소프트, 메타, 심지어 샤오미까지. 이들이 내놓은 결과물에는 하나의 무서운 공통점이 있었습니다. 바로 ‘그럴싸함’의 가면을 벗고 ‘진짜 쓸모’를 향해 칼을 갈기 시작했다는 점입니다. 이건 단순한 성능 개선이 아닙니다. AI 기술 발전의 판이 바뀌고 있다는 명백한 신호탄입니다.

3줄 요약: 그래서, 뭐가 어떻게 바뀌었다는 건데?

1. AI에게 ‘진실 탐지기’를 달아줬습니다. 구글의 새 훈련법(CRRM)은 답변의 겉모습이 아닌 ‘진실’과 ‘논리’에만 보상을 줍니다. 이제 헛소리에 쉽게 속지 않는다는 뜻이죠.

2. 어설픈 만능 AI의 시대는 끝났습니다. 수학 문제만 파고드는 모델(Octoinker), 의사보다 4배 정확한 진단 AI(MAI-DXO)처럼, 특정 분야를 지독하게 파고드는 ‘전문가 AI’가 뜨고 있습니다.

3. 이제부턴 ‘진짜 실력’으로 붙는 전쟁입니다. 메타의 인재 블랙홀 현상과 샤오미의 실용적인 스마트 글래스는, 이 경쟁이 더는 연구실 안의 ‘그들만의 리그’가 아님을 증명합니다.

구글 딥마인드의 반격: AI 환각을 잠재울 최신 동향

내가 챗봇을 불신했던 이유: 화려한 포장지, 텅 빈 내용물

제가 챗봇을 믿지 못했던 가장 큰 이유는 ‘보상 모델’이라는 녀석의 한계 때문이었습니다. 쉽게 말해, AI가 인간 마음에 쏙 드는 답변을 하도록 훈련시키는 과정에서 모든 게 꼬여버린 거죠. AI는 답변의 진위나 논리보다 그저 더 길고, 더 정중하고, 형식이 번듯한 답변에 후한 점수를 주도록 길들여졌습니다. 결과는, 뭐, 다들 아시는 그대로입니다. 명백한 오답이 단지 서식이 깔끔하다는 이유로 정답보다 높은 평가를 받는 걸 수없이 봤습니다. 이런 녀석을 어떻게 믿고 제 일에 투입하겠습니까?

구글 딥마인드의 ‘CRRM’, 본질을 꿰뚫는 한 수

구글 딥마인드가 내놓은 ‘인과적으로 견고한 보상 모델링(CRRM)’은 바로 이 문제를 정면으로 저격합니다. 원리는 단순하지만, 그 결과는 가히 혁명적입니다. AI에게 두 종류의 답변을 한 쌍으로 묶어 학습시키는 건데요.

  1. 인과적 변경: 팩트를 바꾸는 등 답변의 ‘핵심 품질’을 건드린 것.
  2. 중립적 변경: 내용은 그대로, 말투나 길이 같은 ‘스타일’만 바꾼 것.

훈련의 핵심은 이겁니다. AI가 오직 1번, 즉 핵심 내용이 바뀔 때만 반응하도록 만드는 겁니다. 그랬더니 AI가 겉모습(스타일)의 변화는 가볍게 무시하고, 오직 내용의 진위(본질)에만 집요하게 집중하기 시작했습니다. 테스트 결과는 놀랍습니다. Gemma, Qwen 같은 모델에 적용하자 안전성 점수는 약 13%, 추론 능력은 약 7%나 올랐습니다. 교묘한 말장난으로 속이려는 시도에도 훨씬 잘 버텨냈죠. 드디어 AI가 ‘말투’가 아닌 ‘팩트’를 보기 시작한 겁니다.

범용을 넘어 특화로: 마이크로소프트 AI가 제시하는 전문가의 길

‘라마(Llama)의 수포자 탈출기’, 상하이 교통대의 옥토잉커(Octoinker)

구글이 AI에게 ‘정직’을 가르치려 분투하는 동안, 중국 상하이 교통대 연구진은 AI의 ‘수학 두뇌’를 단련시키는 데 몰두했습니다. 그들은 메타의 라마(Llama) 모델이 강화학습만 거치면 수학 실력은 제자리인데 답변만 4,000토큰까지 길어지는 우스꽝스러운 현상을 발견합니다. 원인은 간단했습니다. 기초 체력이 부실했던 거죠.

그들의 해법 ‘Stable then Decay’는 마치 운동선수를 키우듯 2단계로 진행됩니다. 먼저 2,000억 토큰의 고품질 수학 데이터로 압축적인 기초 훈련을 시킵니다. 이후 모델을 세 갈래로 나눠 각기 다른 스타일의 문제로 심화 학습을 시키죠. ‘옥토잉커(Octoinker)’라 불리는 이 모델은 기존 라마 모델보다 각종 수학 시험에서 최소 10% 이상 높은 점수를 받았습니다. 쓸데없이 말이 길어지는 문제도 말끔히 해결했고요. 어설픈 만능 재주꾼이 아니라, 자기 분야는 확실히 아는 ‘진짜 전문가’를 키워낸 셈이죠.

MS의 야심: 인간 의사보다 4배 정확한 진단 AI, MAI-DXO

마이크로소프트는 한술 더 뜹니다. 여러 AI 모델을 한자리에 모아 ‘집단 토론’을 시키는 방식으로 의료 진단에 접근했거든요. ‘MAI-DXO’라는 이 시스템은 GPT, Gemini, Claude 등 쟁쟁한 모델들에게 환자 증상을 던져주고, 각자의 소견을 종합해 최적의 진단 계획을 뽑아냅니다.

결과는, 솔직히 좀 충격적입니다. 세계 최고 권위의 의학 저널(NEJM)에 실린 실제 사례 304개로 테스트했더니, MAI-DXO는 약 80%의 진단 정확도를 기록했습니다. 이는 외부 자료 참고가 금지된 인간 의사들로 구성된 패널보다 무려 4배나 높은 수치입니다. 한 명의 ‘천재’가 저지를 수 있는 치명적인 오판이나 환각 증세를, 여러 전문가의 교차 검증으로 완벽히 상쇄하기에 가능한 결과입니다. 심지어 더 저렴한 검사를 우선순위로 골라 진단 비용까지 약 20%나 아껴주더군요. 물론 실제 임상 시험이라는 거대한 산이 남았지만, 이는 AI가 특정 분야에서 인간의 능력을 압도할 수 있음을 보여주는 강력한 증거가 아닐 수 없습니다.

메타 AI의 인재 블랙홀과 샤오미의 현실적 도전

‘AI 드림팀’ 꾸리는 메타, 판을 뒤흔들 수 있을까?

이 모든 기술적 도약의 뒤에는, 결국 ‘사람’과 ‘돈’이 있습니다. 마크 저커버그가 발표한 ‘메타 슈퍼 인텔리전스 랩’은 이 전쟁이 얼마나 치열한지 보여주는 단적인 예입니다. 수십억 달러짜리 패키지로 경쟁사의 핵심 인물을 최고 AI 책임자로 영입하고, 오픈AI, 딥마인드, 앤트로픽 출신 시니어 연구원들을 말 그대로 ‘진공청소기’처럼 빨아들이고 있습니다. 이건 단순히 남들을 따라잡겠다는 수준이 아닙니다. 아예 판을 뒤집어 ‘차세대 모델’의 선두에 서겠다는 노골적인 야심의 표현입니다.

메타버스 대신 스마트 글래스? 샤오미의 현실적인 한 방

거대 기업들이 소프트웨어 전쟁에 혈안이 된 사이, 샤오미는 지극히 현실적인 하드웨어로 한 방을 날립니다. 최근 공개한 스마트 글래스는 여러 면에서 메타의 레이밴 스마트 글래스를 압도합니다. 배터리 사용 시간은 2배 이상(8.6시간) 길고, 자체 음성 비서로 실시간 번역과 사물 인식을 지원하며, 심지어 시선과 음성으로 결제하는 ‘Pay-by-glance’ 기능까지 넣었습니다. 가격도 약 280달러로 현실적이죠. 아직은 뜬구름 잡는 듯한 메타버스 구호보다, 당장 내 손에 쥘 수 있는 쓸모 있는 AI 기기가 시장에 훨씬 강력한 메시지를 던진다는 걸 샤오미는 정확히 알고 있습니다.

구분기존 AI 접근법최신 AI 접근법 (CRRM, Octoinker, MAI-DXO)
평가 기준얼마나 그럴싸하게 들리는가? (스타일, 길이, 형식)얼마나 사실에 기반하고 논리적인가? (정확성, 인과관계)
학습 방식무차별적인 데이터와 모호한 보상 모델핵심 품질과 스타일을 분리한 정교한 훈련, 특정 분야 집중 학습
목표인간과 유사한 대화 흉내 (범용성)특정 분야에서 인간을 능가하는 성과 (전문성, 신뢰성)
결과물말 잘하지만 종종 헛소리하는 ‘만능 인턴’말은 좀 없어도 자기 분야는 확실한 ‘전문가 패널’

‘환상’의 시대가 가고 ‘도구’의 시대가 온다

자, 정리해 보겠습니다. AI는 이제 ‘그럴싸한 헛소리’를 늘어놓던 사춘기를 지나, 특정 분야에서 인간 전문가를 위협할 만큼 똑똑하고 믿음직한 ‘도구’로 진화하고 있습니다. 구글은 AI에게 진실을 말하는 법을, MS와 상하이 교통대는 한 분야의 진짜 전문가가 되는 법을 가르치고 있습니다. 메타는 최고의 두뇌들을 긁어모아 이 경쟁에 모든 것을 걸었고, 샤오미는 이 기술을 우리 손안의 기기에 담아냈습니다.

이제 우리는 더 이상 “AI가 과연 쓸모 있을까?” 같은 순진한 질문을 던질 때가 아닙니다. “인간을 압도하기 시작한 이 새로운 도구를 어떻게 통제하고, 어떻게 활용할 것인가?”를 치열하게 고민해야 할 때입니다.

환상의 시대는 저물었습니다. 이제 이 무섭도록 강력한 도구를 누가 더 현명하게, 더 날카롭게 다루는가에 모든 것이 달렸습니다. 진짜 실력의 시대가, 드디어 막을 올린 겁니다.

구글 딥마인드의 최신 AI 기술 발전으로 모델이 어떻게 달라졌나요?

가장 큰 변화는 ‘진실성’입니다. 예전 모델은 답변이 그럴싸해 보이면 좋은 점수를 받았지만, 구글의 새 ‘CRRM’ 훈련법을 거친 모델은 내용의 ‘사실’과 ‘논리’가 맞을 때만 높은 점수를 받습니다. 한마디로, 겉만 번지르르한 거짓말을 할 가능성이 크게 줄고 훨씬 정직하고 믿을 만한 답변을 하게 된 거죠.

마이크로소프트 AI가 인간 의사보다 진단을 더 잘한다는 게 사실인가요?

네, 하지만 중요한 전제가 붙습니다. 마이크로소프트의 ‘MAI-DXO’는 외부 자료를 참고할 수 없는 통제된 환경에서, 인간 의사 패널보다 4배 높은 진단 정확도를 보였습니다. 여러 AI의 의견을 모아 한 AI의 편견이나 실수를 막는 방식 덕분입니다. 다만, 실제 환자를 대하는 복잡한 임상 환경에서도 같은 성능을 낼지는 앞으로 더 많은 검증이 필요합니다.

메타 AI의 하드웨어와 비교할 때, 샤오미 스마트 글래스의 장점은 무엇인가요?

한마디로 ‘실용성’입니다. 샤오미 제품은 배터리가 8.6시간으로 4시간인 메타 제품보다 두 배 이상 깁니다. 또, 실시간 번역이나 사물 인식, 시선 결제처럼 스마트폰 없이도 자체적으로 할 수 있는 똑똑한 기능이 훨씬 많습니다. 반면 메타 레이밴은 유명 브랜드와의 협업을 통해 디자인과 패션에 더 힘을 준 제품이라고 볼 수 있습니다.

Similar Posts

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다