최신 AI 영상 생성 모델의 성능은 놀라운 수준에 도달했지만, 많은 사용자가 결과물에 만족하지 못하는 경우가 많습니다. 대부분 문제는 프롬프트, 즉 AI에게 내리는 명령의 구체성이 부족하기 때문입니다. 시각적 요소는 물론 물리 법칙과 사운드, 전체적인 맥락까지 고려한 ‘좋은 프롬프트’ 작성은 전문가에게도 상당한 노력이 필요한 일입니다.
이러한 프롬프트 엔지니어링의 장벽을 허물기 위해 구글이 흥미로운 해법을 제시했습니다. 바로 VISTA(Video Iterative Self Improvement Agent)는 사용자의 간단한 아이디어를 받아, 영상 생성에 최적화된 구체적인 프롬프트로 자동 개선하는 다중 에이전트 프레임워크입니다. 사용자가 아닌 AI 에이전트가 스스로 프롬프트를 비평하고 발전시키는 새로운 접근 방식입니다. 그 핵심 원리와 실제 성능, 그리고 명확한 한계까지 면밀히 들여다봤습니다.
왜 영상 프롬프트는 유독 까다로운가?
단순히 ‘달리는 강아지’를 넘어 ‘해 질 녘 공원에서 바람에 흩날리는 털을 가진 골든 리트리버가 주인을 향해 달려오며 행복하게 짖는 모습을 슬로우 모션으로 촬영’ 같은 장면을 얻으려면 복합적인 요소를 모두 텍스트로 녹여내야 합니다. 이는 단순 이미지 생성과는 차원이 다른 복잡성을 가집니다.
이미지와 다른 영상의 다차원적 요소
이미지 프롬프트는 주로 피사체, 배경, 화풍, 구도 등 시각적 요소에 집중합니다. 하지만 영상에는 ‘시간’이라는 축이 더해집니다. 시간의 흐름에 따른 캐릭터의 움직임, 물리적 상호작용, 카메라 워크, 배경 사운드와 대사, 전체적인 분위기 변화까지 고려해야 합니다. 기존 프롬프트 최적화 전략이 영상 분야에서 어려움을 겪었던 이유가 바로 이 다차원적 복잡성 때문입니다. 사용자가 이 모든 요소를 빠짐없이 텍스트로 통제하는 것은 거의 불가능에 가깝습니다.
‘상식’을 이해하지 못하는 AI
AI는 물리 법칙이나 사회적 맥락 같은 ‘상식’을 본질적으로 이해하지 못합니다. 예를 들어 ‘컵이 바닥에 떨어져 깨진다’는 프롬프트에서 AI는 ‘깨진 컵’의 결과만 생성할 뿐, 중력에 의해 낙하하고 충격으로 파편이 튀는 자연스러운 과정을 표현하는 데 어려움을 겪습니다. VISTA는 바로 이 지점에서 인간의 개입을 최소화하고, AI가 스스로 영상의 시각, 청각, 맥락적 ‘상식’을 보완하도록 설계된 시스템이라는 점에서 중요한 차이를 만듭니다.
구글 VISTA의 4단계 자동 최적화 작동 원리
VISTA의 핵심은 한 번에 완벽한 프롬프트를 만드는 것이 아닙니다. 여러 AI 에이전트가 협력하여 반복적으로 프롬프트를 다듬어 나가는 순환 구조에 있습니다. 이 과정은 크게 분해, 비교, 비평, 정제의 4단계로 이루어집니다.
1단계: 아이디어 분해 및 재구성
사용자가 “공상과학 영화 예고편” 같은 짧은 아이디어를 입력하면, VISTA는 먼저 이 아이디어를 시간 순서에 따른 여러 장면으로 분해합니다. 이후 각 장면에 대해 지속 시간, 캐릭터, 행동, 대사, 시각적 환경, 카메라, 사운드, 분위기 등 9가지 핵심 속성을 정의합니다. 이때 Gemini 1.5 Flash 모델이 투입되어, 사용자가 제시하지 않은 빈 속성을 사실성과 창의성을 고려해 자동으로 채워 넣습니다. 막연한 아이디어가 구체적인 장면의 설계도로 바뀌는 첫 단계입니다.
2단계: 다수 버전 생성 및 비교 평가
재구성된 프롬프트를 기반으로 여러 버전의 영상을 생성하고, 이를 원래 프롬프트로 만든 영상과 비교 평가합니다. 이 단계의 목표는 가장 잠재력 있는 ‘승리자’ 영상을 가려내는 것입니다. 평가 기준은 시각적 충실도, 물리적 상식 준수 여부, 텍스트-영상 정합성, 오디오-영상 조화, 그리고 사용자의 몰입도 등 다각도로 구성됩니다. 이 경쟁을 통해 가장 개선 가능성이 높은 프롬프트가 다음 단계로 넘어갑니다.
3~4단계: 다각도 비평과 최종 정제
선정된 ‘승리자’ 영상과 프롬프트는 3개의 전문 비평 에이전트에게 전달됩니다. 각각 시각, 청각, 맥락 충실도를 담당하는 이 에이전트들은 수십 가지 세부 항목에 대해 1점에서 10점까지 점수를 매기며 구체적인 피드백을 생성합니다. 마지막으로 ‘심층 사고 에이전트’가 이 모든 비평 내용을 종합 분석하여, 개선점을 반영한 최종 정제 프롬프트를 만들어냅니다. 이 1~4단계 과정 전체가 하나의 ‘개선 루프’를 형성하며, 반복될수록 영상의 품질은 계속 향상됩니다.
VISTA가 보여준 실제 성능과 명확한 한계점
이론적인 원리만큼 중요한 것은 실제 성능입니다. 구글 연구팀은 VISTA를 활용한 결과물이 상당한 수준의 개선을 이뤘음을 수치로 증명했습니다.
인간의 눈으로 확인된 66.4%의 우위
구글 연구팀 발표에 따르면, VISTA의 개선 루프를 5번 거쳐 구글의 영상 생성 모델 Veo로 생성한 영상은 원본 프롬프트로 만든 영상과의 인간 선호도 비교 평가에서 66.4%의 우위를 보였습니다. 이는 VISTA의 자동 최적화 과정이 단순히 프롬프트를 길게 만드는 것을 넘어, 실제 인간이 보기에 더 자연스럽고 매력적인 결과물을 만들어낸다는 점을 시사합니다. 프롬프트 엔지니어링 지식이 없는 일반 사용자도 높은 품질의 영상을 얻을 가능성을 열어준 것입니다.
상용화를 가로막는 비용의 문제
다만 이 과정의 가장 큰 과제는 비용입니다. 연구에 따르면 VISTA는 한 번의 개선 루프를 실행하는 데 평균 약 70만 개의 토큰을 사용합니다. 대부분 토큰은 영상을 분석하고 다각도로 비평하는 과정에서 소모됩니다. 이는 상당한 컴퓨팅 자원을 요구하는 수준으로, 현재로서는 일반 사용자가 자유롭게 활용하기에 부담이 큽니다. 기술의 효과는 입증되었지만, 비용 효율성을 어떻게 확보할 것인지가 상용화의 주요 과제로 남은 셈입니다. VISTA는 AI가 스스로를 개선하는 ‘메타 AI’의 가능성을 보여준 중요한 사례지만, 그 잠재력을 모두가 누리기까지는 시간이 더 필요해 보입니다.
자주 묻는 질문 (FAQ)
구글 VISTA란 무엇인가요?
구글 VISTA(Video Iterative Self Improvement Agent)는 사용자의 간단한 아이디어를 받아 영상 생성에 최적화된 구체적인 프롬프트로 자동 개선하는 다중 AI 에이전트 프레임워크입니다. AI가 스스로 프롬프트를 비평하고 발전시켜 고품질 영상을 만듭니다.
구글 VISTA는 영상 프롬프트를 어떻게 자동 최적화하나요?
VISTA는 4단계 반복 과정을 거칩니다. 첫째, 아이디어를 분해하고 Gemini 1.5 Flash로 구체화합니다. 둘째, 여러 버전의 영상을 생성하고 비교 평가합니다. 셋째, 시각, 청각, 맥락 비평 에이전트가 피드백을 제공합니다. 넷째, 심층 사고 에이전트가 이를 종합해 프롬프트를 정제합니다.
기존 AI 영상 생성 모델과 구글 VISTA의 차이점은 무엇인가요?
기존 모델은 사용자가 복잡한 프롬프트를 직접 작성해야 하는 반면, VISTA는 AI 에이전트가 스스로 프롬프트 엔지니어링을 수행합니다. 시간, 물리 법칙, 사운드 등 영상의 다차원적 요소를 AI가 자율적으로 보완하여 전문가 수준의 결과물을 도출합니다.
구글 VISTA를 활용하면 어떤 이점을 얻을 수 있나요?
VISTA는 프롬프트 작성의 전문 지식이 없는 일반 사용자도 짧은 아이디어만으로 고품질의 AI 영상을 생성할 수 있도록 돕습니다. 인간 선호도 비교에서 66.4%의 우위를 보이며, 더 자연스럽고 매력적인 영상 결과물을 기대할 수 있습니다.
구글 VISTA의 상용화에 가장 큰 걸림돌은 무엇인가요?
VISTA의 가장 큰 상용화 걸림돌은 높은 컴퓨팅 비용입니다. 한 번의 개선 루프에 평균 약 70만 개의 토큰이 소모되며, 이는 상당한 자원을 요구하기 때문에 일반 사용자가 자유롭게 활용하기에는 아직 부담이 큰 수준입니다.



![아마존 알렉사 플러스를 상징하는 생성형 AI 음성파 로봇 스케치 스타일 썸네일 이미지]](https://aeiai.net/wp-content/uploads/2025/04/알렉사-플러스-생성형-AI-진화-768x768.jpg)


