Gaia 벤치마크 점수를 나타내는 막대그래프 일러스트. Web Sailor가 GPT-4보다 월등히 높은 성능을 보이는 것을 시각화.

Last Updated on 2025-07-13 by AEIAI.NET

정말이지, 지긋지긋했습니다. 매주 월요일 아침이면 어김없이 찾아오는 그 시간. 수십 개 경쟁사의 웹사이트, 쏟아지는 보도자료, 심지어 SNS 채널까지 샅샅이 뒤져 주간 동향 보고서를 만드는 일은 제 시간과 정신을 통째로 갉아먹는 노동이었죠. 아마 이 글을 읽는 당신도 공감하실 겁니다. 자동화해보겠다고 이름 좀 들어본 AI 에이전트들을 여럿 써봤지만, 결과는 늘 처참했습니다. 엉뚱한 정보를 긁어오거나, 웹사이트 구조가 살짝만 바뀌어도 길을 잃고 멈춰버리기 일쑤였으니까요. ‘AI 자동화는 아직 멀었구나.’ 거의 체념하던 차였습니다. 알리바바 AI 연구소에서 ‘Web Sailor’라는 걸 오픈소스로 풀었다는 소식이 들려온 건. 솔직히 큰 기대는 없었습니다. 또 하나의 과대포장된 장난감이겠거니 했죠.

결론부터 말하자면, 그 예상은 반은 맞고 반은 틀렸습니다.

딱 3줄만 읽어보세요

1. 성능은 진짜입니다. GPT-4가 15.3%를 기록한 복잡한 웹 정보 탐색 벤치마크(Gaia)에서 무려 55.4%를 달성했습니다. 이건 단순 반복이 아니라 ‘추론’을 한다는 명백한 증거죠.

2. 훈련 방식이 달랐습니다. 정답을 일부러 숨기고 찾게 만드는 ‘SailorFog QA’ 훈련 덕분에, 복잡하고 예측 불가능한 웹 환경에서 다른 AI보다 월등한 생존력을 보여줍니다.

3. 다만, 아직은 ‘날것’ 그대로입니다. 지금 당장 누구나 클릭 몇 번으로 쓸 수 있는 도구는 아닙니다. 하지만 제대로 다룰 줄 아는 사람에겐, 시장 조사와 경쟁사 분석의 게임 룰을 바꿀 강력한 무료 오픈소스 AI 에이전트임은 분명합니다.

벤치마크 점수는 거들 뿐, 진짜 실력은 따로 있었다

‘벤치마크 점수가 높다’는 홍보 문구, 이젠 신물이 날 정도죠. 그래서 중요한 게 뭐냐고요? 내 일을 진짜 대신해 줄 수 있느냐, 바로 그겁니다. 저는 매주 하던 바로 그 경쟁사 분석 리서치를 Web Sailor에게 그대로 던져봤습니다. “A, B, C사의 최근 2주간 신제품 출시 정보, 관련 뉴스, CEO의 소셜 미디어 언급을 찾아서 표로 깔끔하게 정리해 줘.”

앵무새처럼 굴던 AI들과는 격이 다른 움직임

자, 이전까지 테스트했던 대부분의 AI 에이전트는 바로 이 단계에서 무너졌습니다. A사 웹사이트의 팝업창 하나에 막히고, B사의 뉴스룸 구조를 이해하지 못해 헤맸죠. C사 CEO의 SNS 계정을 못 찾아내고는 “정보를 찾을 수 없습니다”라는 답변만 앵무새처럼 반복할 뿐이었습니다. 하지만 Web Sailor는 달랐습니다. 물론 완벽하진 않았지만, 각기 다른 구조의 웹사이트를 능숙하게 넘나들며 정보를 긁어모으기 시작하더군요. 중간에 길이 막히면 다른 접근법을 시도하는 모습까지 보였습니다. 마치 거친 정보의 바다를 항해하는 노련한 항해사(Sailor)처럼 말입니다.

Gaia 벤치마크 55.4%: 이 숫자가 ‘생각하는 힘’의 증거

이런 차이가 대체 어디서 오는 걸까? 파고들어 보니 ‘Gaia 벤치마크’라는 지표가 나왔습니다. 이건 단순 정보 검색 테스트가 아닙니다. 여러 웹페이지에 흩어진 단서를 조각처럼 모으고, 그 관계를 추론해야만 답을 찾을 수 있는 아주 까다로운 질문들이죠. 인간 전문가가 92.7%의 점수를 받는데, 온갖 플러그인을 총동원한 GPT-4조차 15.3%라는 초라한 성적표를 받았습니다. 그런데 Web Sailor가 55.4%를 기록했다? 이 숫자는 Web Sailor가 단순히 웹페이지를 ‘읽는’ 걸 넘어, 정보의 맥락을 ‘이해하고 추론하는’ 능력을 갖췄다는 객관적인 증거인 셈입니다. 제 경쟁사 분석 테스트에서 보여줬던 그 끈질김이 바로 이 능력에서 나온 것이었죠.

Web Sailor, 대체 뭐가 다르길래? (feat. SailorFog QA)

성능 차이의 핵심은 훈련 방식에 있었습니다. 대부분의 AI가 방대한 데이터를 그저 ‘먹는’ 방식으로 학습할 때, 알리바바 AI 팀은 AI에게 일종의 ‘탐정 놀이’를 시켰습니다.

‘정답 숨바꼭질’이라는 기막힌 훈련법

‘SailorFog QA’라는 훈련 데이터셋이 그 비밀 병기입니다. 연구원들은 실제 웹사이트에서 정보를 가져온 뒤, 일부러 찾기 어렵게 만듭니다. 가령, 정확한 날짜를 ‘지난 분기’처럼 모호한 표현으로 바꾸고, 정답에 필요한 단서를 여러 페이지에 흩어 놓는 식이죠. AI는 이 숨겨진 단서들을 직접 찾아내고, 연결하고, 추론해서 정답을 맞춰야만 보상을 받습니다. 이런 혹독한 ‘정답 숨바꼭질’ 훈련을 통해 Web Sailor는 명확한 경로가 없는 문제에 부딪혔을 때 포기하지 않고 스스로 해결책을 탐색하는 능력을 기릅니다. 이것이야말로 진정한 웹 브라우징 자동화의 심장이 아닐까요?

작은 고추가 맵다는 걸 증명하다

더 놀라운 사실이 있습니다. 70억 개 매개변수(7B)를 가진 Web Sailor 소형 모델이, 320억 개(32B)가 넘는 다른 거대 모델들을 이긴다는 점입니다. 이건 단순히 덩치(데이터 양)가 아니라, 훈련의 ‘질’이 AI의 지능을 결정한다는 강력한 증거입니다. 무조건 큰 모델만 찾을 게 아니라, 내가 하려는 특정 작업에 얼마나 잘 훈련되었는지를 봐야 한다는 뜻이죠.

그래서 이걸로 뭘 할 수 있는데? 시장 조사 자동화의 현실

뜬구름 잡는 이야기는 이쯤 하고, 이걸로 당장 내 업무를 어떻게 바꿀 수 있을지가 가장 중요하겠죠. 결론부터 말하면, Web Sailor는 시장 조사 자동화와 경쟁사 분석 같은 정보 수집 업무의 판도를 바꿀 엄청난 잠재력을 가졌습니다.

항목인간 연구원GPT-4 (웹 브라우징)Web Sailor
속도매우 느림 (수 시간)보통 (수 분)매우 빠름 (수 분)
복잡한 추론매우 높음낮음 (자주 실패)중간 (성공률 높음)
비용고비용 (인건비)유료 구독무료 (오픈소스)
초기 설정 난이도매우 쉬움어려움 (개발 지식 필요)
적응성높음낮음높음

경쟁사 분석 노다가, 5분 만에 초안 완성의 기쁨

매주 2~3시간씩 저를 괴롭히던 경쟁사 주간 동향 분석. 이걸 Web Sailor로 자동화하는 스크립트를 구성했습니다. 물론 처음부터 완벽한 보고서가 뚝딱 나오진 않습니다. 하지만 90% 이상의 정확도로 필요한 데이터를 싹 긁어모아 초안을 만드는 데는 성공했습니다. 저는 이제 잘 정리된 초안을 검토하고 인사이트를 추가하는, 진짜 ‘생각’하는 데만 시간을 씁니다. 단순 반복 노동에서 해방되어 ‘분석’이라는 본질에 집중하게 된 것, 이것만으로도 엄청난 변화입니다.

아직은 개발자용, 하지만 진짜는 지금부터

솔직히 말해볼까요? 지금 당장 비개발자가 Web Sailor를 쓰기는 어렵습니다. GitHub에서 코드를 내려받고, 환경을 설정하는 과정이 필요하니까요. 하지만 이건 시작일 뿐입니다. Web Sailor는 오픈소스입니다. 전 세계 개발자들이 이 강력한 엔진을 기반으로 훨씬 더 사용하기 쉬운 도구를 만들어낼 겁니다. 중국 테크 기업들이 벌이는 ‘100개 모델 전쟁’ 덕분에, 우리는 수십억 달러 가치의 AI 연구 결과를 무료로 얻게 된 셈이죠. 이 기회를 놓치는 건 어리석은 일입니다.

Web Sailor는 완벽한 AI 비서가 아닙니다. 여전히 실수하고, 가끔은 엉뚱한 길로 샐 때도 있죠. 하지만 중요한 것은 그 방향성입니다. 정해진 스크립트에 의존하던 멍청한 봇에서, 스스로 생각하고 문제를 해결하는 진짜 AI 에이전트로의 전환. 그 첫 번째 신호탄이 바로 여기에 있습니다. 이 신호를 무시하고 계속 수작업만 고집할 것인가, 아니면 조금 서툴더라도 이 새로운 도구를 길들이며 미래를 준비할 것인가? 선택은 각자의 몫이지만, 미래는 이미 이 새로운 항해를 시작한 자들의 것이 될 겁니다.

Web Sailor, 그래서 지금 당장 쓸만한가요?

개발 지식이 있고, 특정 웹 리서치 업무를 자동화하려는 명확한 목표가 있다면 ‘매우 쓸만합니다’. 마치 강력한 엔진 부품을 얻은 것과 같죠. 하지만 클릭 몇 번으로 모든 걸 해결해 주는 완제품 자동차를 기대한다면 실망할 수 있습니다. 지금은 강력한 ‘엔진’이 공개된 상태이며, 이 엔진을 활용한 사용자 친화적 서비스들이 곧 쏟아져 나올 겁니다.

AI로 경쟁사 분석을 자동화하려면 구체적으로 어떻게 해야 하나요?

먼저 분석할 경쟁사 목록, 수집할 정보(신제품, 가격, 뉴스, 채용 등)의 출처(URL)를 명확히 정의하는 ‘보물 지도’를 그려야 합니다. 그 다음 Web Sailor에게 “이 지도에 따라 URL 목록을 방문해서, 지정된 보물(정보)을 찾아 특정 형식(예: CSV, 마크다운 테이블)의 보물 상자에 담아줘”와 같은 구체적인 프롬프트를 입력하는 스크립트를 작성하면 됩니다. 초기 설정은 복잡하지만, 한번 만들어두면 계속 재사용할 수 있는 나만의 자동화 시스템이 생기는 셈이죠.

Web Sailor 같은 오픈소스 AI 에이전트의 가장 큰 장점은 무엇인가요?

비용이 ‘무료’라는 점도 엄청나지만, 진짜 매력은 ‘투명성’과 ‘확장성’에 있습니다. 코드가 공개되어 있어 어떻게 작동하는지 속을 들여다볼 수 있고, 내 필요에 맞게 튜닝하거나 기능을 덧붙일 수 있습니다. 특정 기업의 서버나 정책에 종속되지 않고, 나만의 자동화 시스템을 구축할 수 있다는 것은 그 무엇과도 바꿀 수 없는 자유입니다.

설치가 어렵다는데, 비개발자도 사용할 수 있을까요?

솔직히 지금은 Python과 Docker 등에 대한 기본적인 이해가 없다면 직접 설치하고 운영하기 어렵습니다. 하지만 너무 실망하진 마세요. 커뮤니티가 활성화되면 훨씬 쉬운 설치 스크립트나 친절한 가이드가 나올 가능성이 높습니다. 비개발자라면 지금은 Web Sailor의 개념과 가능성을 이해하고, 이를 기반으로 나올 사용자 친화적인 서비스들을 기다리며 ‘내 업무 중 무엇을 자동화할까?’ 구상하는 것이 가장 현명한 전략입니다.

Similar Posts

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다