AI API 쓰려는데 모델이 너무 많다? — T2I, I2I, TTS, T2V까지 한 번에 정리

4월 27, 2026

도입

허깅페이스에 올라온 텍스트-이미지 모델 수가 9만 개를 넘었습니다. TTS 모델, 영상 생성 모델까지 합치면 그야말로 모델의 바다죠. 그런데 막상 "AI 기능 하나 붙여보자" 하면 무엇부터 봐야 할지 막막해지실 거예요. 텍스트로 그림 그리기, 사진 한 장 주고 다른 그림 만들기, 같은 캐릭터 유지하기, 글을 음성으로 바꾸기, 짧은 영상 만들기. 이게 다 다른 모델이거든요. 그래서 오늘은 한 발짝 떨어져서 정리해 봅니다. 모델은 도대체 몇 가지 카테고리로 나뉘고, 각 카테고리에서 무엇을 골라야 하는지요.

핵심 내용 요약

생성 AI 모델은 크게 입력과 출력의 조합으로 분류합니다. 텍스트→이미지(T2I), 이미지→이미지(I2I), 참조 이미지+텍스트(in-context), 텍스트→음성(TTS), 텍스트→영상(T2V), 이미지→영상(I2V) 같은 식이죠. 같은 "이미지 생성"이라도 처음부터 그리는 것과 기존 그림을 수정하는 것, 그리고 캐릭터를 유지하면서 새 장면을 만드는 것은 전혀 다른 모델 카테고리입니다. 그리고 각 카테고리 안에서도 GPT Image, FLUX, Gemini, Imagen, Ideogram, Stable Diffusion 등 특기가 다른 모델이 경쟁합니다. API를 쓸 때는 "어떤 입출력이 필요한지"를 먼저 정해야 모델 선택이 쉬워져요.

쉽게 풀어 설명

예를 들어볼까요. 유튜브 채널에 캐릭터를 등장시킨다고 해보겠습니다. 작업은 보통 이렇게 흘러갑니다.

1) 캐릭터 첫 컷 만들기 — Text-to-Image (T2I). "분홍색 후드 입은 20대 여성, 카페 창가, 일러스트 스타일" 같은 텍스트만으로 처음부터 이미지를 만드는 모델입니다. OpenAI의 GPT Image 2, Black Forest Labs의 FLUX 2 Pro, 구글 Imagen 4, Ideogram v3 같은 모델이 여기에 속하죠. 텍스트가 많이 들어가는 포스터라면 Ideogram v3, 사진 같은 사실성이 필요하면 Imagen 4 Ultra, 빠르고 저렴하게 뽑고 싶으면 Z-Image Turbo 같은 식으로 골라요.

2) 같은 캐릭터로 다른 장면 — In-context / Reference Image 모델. 1단계에서 만든 캐릭터를 그대로 두고 "지금은 비 오는 거리, 우산 들고 있는 모습"으로 바꿔야 합니다. 이때 그냥 T2I로 또 돌리면 얼굴이 다른 사람이 되어버려요. 그래서 등장한 게 FLUX.1 Kontext 같은 in-context 편집 모델입니다. 참조 이미지를 같이 넣으면 캐릭터 정체성을 유지하면서 배경·포즈만 바꿔줍니다.

3) 부분만 수정 — Image-to-Image (I2I) / Inpainting. 캐릭터 옷 색만 바꾸고 싶다거나, 배경에 붕 떠 있는 어색한 물체 하나만 지우고 싶을 때가 있죠. 이건 "전체를 다시 그리는" 게 아니라 "특정 영역만 수정하는" 작업입니다. Stable Diffusion 3.5의 inpainting, FLUX Kontext의 local edit, GPT Image의 edits 엔드포인트가 이런 일을 해줍니다.

4) 글을 목소리로 — Text-to-Speech (TTS). 캐릭터에 목소리를 입힐 차례입니다. ElevenLabs, OpenAI tts-1, 구글 Gemini TTS, 미스트랄의 Voxtral TTS 같은 모델들이 글을 자연스러운 음성으로 변환해 줍니다. 요즘 모델은 단순 낭독을 넘어 감정·억양·속도까지 조절할 수 있어요. Voxtral TTS는 3초짜리 참조 음성만 있으면 그 사람의 억양·발음 습관까지 흉내 내는 음성 클로닝도 가능합니다.

5) 정지 이미지를 움직이게 — Image-to-Video (I2V) / Text-to-Video (T2V). 만들어진 캐릭터 컷을 짧은 영상으로 움직이고 싶다면 Sora 2, 구글 Veo 3.1, Runway Gen-4.5, Kling 3.0, ByteDance Seedance 2.0 같은 영상 모델로 넘어갑니다. 텍스트만으로 영상을 만들면 T2V, 이미지를 시작 프레임으로 주면 I2V죠. 2026년 2월 기준 가격은 초당 0.029달러부터 0.75달러까지 천차만별이라 용도에 따라 신중하게 골라야 합니다.

정리하면, 같은 "AI로 콘텐츠 만들기"라도 단계마다 카테고리가 달라요. 그래서 "어떤 AI 모델을 써야 해요?"라는 질문은 사실 "내 작업의 입력은 뭐고 출력은 뭔가요?"라는 질문으로 바꿔서 던져야 답이 나옵니다.

영향 분석

이렇게 모델이 잘게 쪼개진 데에는 이유가 있습니다. 첫째, "하나가 다 잘하는 모델은 아직 없다"는 거예요. GPT Image 2가 텍스트 렌더링은 잘 해도 캐릭터 일관성은 FLUX Kontext가 더 강하고, 영상 물리 시뮬레이션은 Sora 2, 자연스러운 립싱크는 Veo 3.1이 앞서는 식입니다. 그래서 제대로 된 AI 워크플로우는 "한 모델만 쓰는 게 아니라 단계별로 다른 모델을 갈아 끼우는" 형태로 가고 있죠.

둘째, 통합 API 플랫폼의 등장입니다. fal.ai, Replicate, WaveSpeedAI, Together AI, Eden AI 같은 곳들은 수백 개 모델을 하나의 API 키로 호출하게 해줘요. 모델 ID만 바꾸면 같은 코드로 GPT Image도 쓰고 FLUX도 쓰고 Kling도 씁니다. 직접 모델별 SDK를 다 붙이는 부담을 크게 덜어주죠.

셋째, 가격 차이가 모델 선택의 핵심이 됩니다. 고품질 이미지 한 장에 0.04달러 정도라면 1000장은 40달러지만, 영상은 초당 0.10~0.75달러라 1분짜리 한 편에 6~45달러까지 갑니다. 그래서 보통은 "프로토타입은 싼 모델로 빠르게, 최종 컷만 비싼 모델로" 같은 다단계 파이프라인을 짜요. WaveSpeedAI 같은 통합 플랫폼은 모델 ID만 바꿔서 같은 프롬프트로 여러 모델을 비교할 수 있게 해줘서 이런 비교를 쉽게 만들어줍니다.

한 가지 주의할 점은 실패 처리와 콘텐츠 정책입니다. 모든 메이저 API에는 콘텐츠 필터가 들어 있고, 일부 플랫폼은 필터에 걸려 실패한 요청에도 크레딧을 차감해요. 자동화 스크립트를 짤 때는 재시도 로직과 함께 "실패 시 비용이 발생하는지"를 꼭 확인해야 합니다.

한 줄 정리

모델을 고르는 첫 질문은 "무엇을 잘하느냐"가 아니라 "내 작업의 입력과 출력이 무엇이냐"입니다. 카테고리(T2I, I2I, in-context, TTS, T2V, I2V)를 먼저 정하고, 그 안에서 가격·품질·특기를 비교해야 합니다.

이 블로그 검색

AI 비즈니스 설계도

Pinned Post

ChatGPT는 거들 뿐 — AI는 이미 차·공장·창고 안에 박혀 있습니다 (2026 현장 르포)