PixAI v4.0 Preview 프롬프트 작성법— 한 장의 캐릭터 이미지에서 15초 애니메이션 영상까지

레퍼런스 세팅, 반복 개선 루프, 보이스 라인과 SFX 형식, Mio.2 프리프로덕션 워크플로까지 ── 저희가 15초 애니 쇼츠를 만들 때 실제로 쓰는 방식을 그대로 공개합니다.

PIXAI ▸ FILM LAB
VOL. 04 ▸ NO. 2
PROMPT TUTORIAL
FIELD-TESTED

— 시행착오에서 정리된 실전 가이드 —

PixAI v4.0 Preview로 애니메이션 영상을 만드는 프롬프트 작성법
레퍼런스 설계부터, 15초 쇼츠 완성까지

레퍼런스를 쌓는 법. 반복 개선 루프. 대사와 SFX 형식. Mio.2로 진행하는 6단계 프리프로덕션. 저희가 15초짜리 애니 쇼츠를 실제로 만들 때 쓰는 워크플로를 그대로 공개합니다.

대부분의 영상 모델 프롬프트 가이드는 실제로 생성을 한 번도 안 돌려본 사람이 쓴 것 같습니다. 주제, 액션, 카메라, 오디오 ── 문법만 알려주고 끝납니다. 그러고 나서 몇 주 동안 아껴둔 캐릭터 일러스트를 막상 움직여보려고 하면, 영상은 정지화면처럼 나오고, 안대는 중간에 벗겨지고, “시네마틱”이라고 아무리 써도 카메라는 꿈쩍도 안 합니다.

이 가이드는 실제 테스트를 거친 버전입니다. 중요한 건 딱 세 가지, 순서대로입니다 ── 레퍼런스를 어떻게 쌓는지, 텍스트 프롬프트에 무엇을 쓰는지, 첫 시도가 실패했을 때 어떻게 고치는지. 텍스트 프롬프트는 오히려 쉬운 부분입니다. 그런데 대부분의 가이드가 거기에 매달려 있죠.

v4.0 Preview를 처음 쓰신다면 먼저 전체 기능을 훑어보는 게 도움이 됩니다. 무엇을 할 수 있는지, PixAI 구형 모델과 어떻게 다른지, 오디오와 레퍼런스 영상이 어떤 기능을 여는지 ── 별도 글에 정리해뒀습니다: PixAI v4.0 Preview란? →

“v4.0뿐 아니라 PixAI의 영상 모델 전체를 보고 싶다”, “i2v 패널 설정 항목들의 의미부터 알고 싶다” 하시는 분은 이 글도 같이 보시면 좋습니다: PixAI Image-to-Video Tutorial: Model Comparison & Prompt Writing → 그게 아니라면 이대로 계속 읽으셔도 됩니다.

TL;DR

PixAI v4.0 애니 영상 프롬프트의 핵심

01
캐릭터가 깨끗하게 보이는 이미지 한 장을 레퍼런스로 쓰세요(영상의 첫 프레임이 아니라, 캐릭터 자체로).
02
프롬프트에서 캐릭터 외형을 일일이 설명하지 마세요. 외형 정보는 레퍼런스가 처리합니다.
03
카메라 움직임은 “zoom in” 같은 모호한 표현 대신 push in, tilt, orbit 같은 실제 촬영 용어로 쓰세요.
04
먼저 v4.0 Lite Preview에서 테스트하세요. 마무리만 v4.0 Preview로 돌리세요.
05
기획, 스크립트, 샷 구성, 프롬프트 설계는 Mio.2에게 맡기세요.

PART ONE

PixAI v4.0에서 레퍼런스 다루기
— 이미지, 영상, 오디오

v4.0 Preview는 세 종류의 레퍼런스를 받습니다. 각각을 프롬프트 안에서 태그로 호출합니다.

종류
태그
최대
용도
이미지
@image1–6
6
캐릭터 정체성, 의상, 장면, 화풍 기준
영상
@video1–3
3
카메라 움직임, 템포, 프레이밍 (총 15초 이내)
오디오
@audio1–3
3
목소리 톤이나 음악 분위기 기준

프롬프트가 잘 안 먹히는 이유는 보통 텍스트가 부족해서가 아닙니다. 레퍼런스 세팅이 엉성한 쪽입니다. 여기에 시간을 쓰세요.

— 레퍼런스 첨부 방법 —

레퍼런스 업로드 UI 사용법을 짧게 정리한 영상.

▸ 01

v4.0 Preview에서 레퍼런스 이미지는 “첫 프레임”이 아닙니다

시작 포즈가 아니라, 캐릭터 정체성의 나침반.

구형 영상 모델들 ── PixAI의 v3.x 시리즈 포함 ── 은 레퍼런스 이미지를 영상의 첫 프레임으로 취급했습니다. 캐릭터 포즈, 배경 ── 전부 오프닝 샷에 고정되고, 모델은 거기서부터 움직임을 이어가야 했죠. 레퍼런스에서 캐릭터가 앉아 있는데 프롬프트에 “그녀가 공중으로 뛰어오른다”라고 써봐야 ── 결과는 운에 맡기는 셈이었습니다.

v4.0 Preview의 동작 방식은 다릅니다. 이미지를 “시작 프레임”이 아니라 캐릭터가 누구인지를 알려주는 의미적 레퍼런스로 읽습니다. 헤어스타일, 눈, 의상, 안대 위치, 고양이 귀, 하트 모양 아호게 ── “그 캐릭터를 그 캐릭터답게 만드는 요소”만 뽑아내고, 움직임이나 연출은 전부 프롬프트에 맡깁니다.

실질적으로 무엇이 달라지는가 ──

  • 깨끗한 캐릭터 이미지 한 장이면 충분합니다. 같은 캐릭터를 여러 각도로 준비할 필요가 없습니다. 같은 오리지널 캐릭터로 4장 구성과 6장 구성을 비교해봤는데 ── 4장 버전이 더 일관되게 선명했습니다. 이유는 단순합니다. 모델이 살짝씩 다른 윤곽과 얼굴 비율을 평균내려 하지 않았으니까요.
▸ 레퍼런스 4장

캐릭터 일관성이 높고, 윤곽선이 또렷합니다.

▸ 레퍼런스 6장

레퍼런스가 많을수록 평균화가 심해지고, 결과는 부드럽게 흐려집니다.

  • 레퍼런스의 포즈는 액션을 묶지 않습니다. 레퍼런스에서 그네에 앉아 있어도 “무대를 가로질러 달린다”라고 프롬프트를 쓰면, v4.0 Preview는 그네를 끌고 다니지 않고 그냥 달리는 동작을 만들어냅니다. 같은 케이스를 v3.0 High Consistency에서 돌려봤더니 ── 앉은 채 그대로였습니다.
▸ V4.0 PREVIEW

v4.0 Preview. 레퍼런스를 “포즈”가 아니라 “캐릭터 정보”로 읽고, 지시대로 뛰어오릅니다.

▸ V3.0 HIGH CONSISTENCY

v3.0 HC. 레퍼런스를 “시작 프레임”으로 취급하기 때문에 그대로 앉아 있습니다.

  • 장면을 지정해야 한다면, 이미지 두 장을 주고 합치는 방식을 직접 설명하세요. 캐릭터만 @image1, 장면만 @image2로 업로드한 뒤 “그녀는 @image2 장면 안에 서 있고, @image1의 의상을 입고 있다”라고 쓰면 ── v4.0 Preview는 배경과 캐릭터 정보를 섞지 않고 합성합니다.

— 실전 예시 —

동일 캐릭터, 여러 장면, 의상 교체

▸ @IMAGE1 캐릭터
PixAI v4.0 캐릭터 레퍼런스
▸ @IMAGE2 장면
PixAI 장면 레퍼런스 1 (대기실)
▸ @IMAGE3 장면
PixAI 장면 레퍼런스 2 (무대)
▸ @IMAGE4 의상
PixAI 의상 레퍼런스
▸ 결과 ▸ V4.0 PREVIEW
▸ 프롬프트 보기
@image1 character is the subject throughout this video, maintaining her multicolored white-pink gradient hair, heart ahoge, purple eyes, white eyepatch, fang, cat ears, and cat tail at all times.

[0-4s] She sits in front of the vintage vanity mirror from @image2 in the warmly lit dressing room, her back partially to the camera so her reflection is visible in the mirror. She looks contemplatively at her reflection, slowly reaching up to touch a strand of hair. Soft pink light bathes the intimate space, the curtains gently moving in the background.

[4-6s] The reflection in the mirror begins to shimmer with dreamlike light, pastel ribbons and cherry petals starting to drift through the air, the dressing room slowly dissolving into a glowing pastel haze.

[6-10s] She now stands at center stage from @image3, under the bright spotlight beam, holding a vintage keytar with both hands, looking forward with quiet confidence. Pink and red ribbons float around her, cherry petals drift through the spotlight beams, soft mist rises gently from the wooden stage floor. She lifts her right hand slightly as if ready to play.

Continuous seamless dreamlike transition through the mirror as a portal between her private self and her stage self.

레퍼런스 이미지는 최대 6장까지 첨부할 수 있습니다. 하지만 대부분의 경우 그렇게까지 필요하지 않습니다. 잘 고른 2~3장이, 5~6장이 모델의 주의를 두고 경쟁하는 것보다 결과가 좋습니다 ── 이미지 하나가 추가될 때마다 “캐릭터가 이렇게 생겨야 한다”는 표가 한 표 더 들어가고, 모델은 결국 그걸 평균내기 때문입니다.

▸ 02

레퍼런스 영상이 옮겨오는 건 “내용”이 아니라 “느낌”입니다

빌리는 건 카메라 움직임. 캐릭터가 아닙니다.

v4.0 Preview에 영상을 레퍼런스로 주는 건 그 영상을 복사하라는 뜻이 아닙니다. “이 영상의 카메라 움직임, 템포, 프레이밍의 느낌을 내 장면에 적용해줘”라고 말하는 거죠.

예를 들어 좋아하는 가챠 카드 영상이 하나 있다고 합시다. 느린 카메라 워크, 부드러운 패럴랙스, 마지막의 여운 있는 리빌. 그 영상을 @video1로 업로드하고 이렇게 씁니다:

Animate this character following the slow camera motion and pacing of @video1.

v4.0 Preview는 그 영상에서 카메라가 어떻게 움직였는지, 어디서 호흡을 잡았는지, 파티클이 어떻게 흘렀는지를 읽어내고, 그 템포를 캐릭터에 입힙니다. 캐릭터가 레퍼런스 영상의 화풍으로 렌더링되지는 않습니다. 레퍼런스 영상 속 캐릭터가 결과에 등장하지도 않습니다. 옮겨지는 건 “외형”이 아니라 “공기”입니다.

— 예시 01 ▸ 가챠 카드 연출 —
▸ @IMAGE1 원본
PixAI 가챠 예시 1의 원본 캐릭터 일러스트
▸ 결과 ▸ V4.0 PREVIEW
— 예시 02 ▸ 가챠 카드 연출 —
▸ @IMAGE1 원본
PixAI 가챠 예시 2의 원본 캐릭터 일러스트
▸ 결과 ▸ V4.0 PREVIEW
▸ 프롬프트 보기 (두 예시 공통)
Transform this static character art from @image1 into a gacha-style animated character card, following the same camera motion and pacing style as @video1.

▸ 기술 제한

지원 포맷은 mp4, 파일 크기는 50MB 이하, 길이는 한 개당 15초 이하입니다. 여러 영상 레퍼런스를 쓸 경우에도 총 길이가 15초를 넘어선 안 됩니다.

▸ 03

레퍼런스 오디오 ── 목소리 톤이나 음악 분위기용

말로 설명하기 어려운 음향적 질감을 위한 기능.

v4.0 Preview에서는 특정 음질에 맞추고 싶을 때 오디오 파일을 레퍼런스로 추가할 수 있습니다. 캐릭터에게 말하게 하고 싶은 목소리 톤. 혹은 BGM으로 재현하고 싶은 음악의 분위기와 편성.

프롬프트에서는 무엇을 빌려오는지 직접 적습니다 ──「@audio1의 음성 캐릭터를 사용한다」, 또는「@audio1의 분위기와 편성을 맞춘다」. 영상 레퍼런스와 같은 원리입니다.

단, 대사 / 환경음 / 효과음(SFX)에는 보통 오디오 레퍼런스가 필요 없습니다. 이런 건 프롬프트에 직접 쓰면 됩니다(뒤에서 설명합니다). 오디오 레퍼런스가 진짜 빛을 발하는 건, 말로는 잡히지 않는 “음의 개성”이나 “공기감”을 옮기고 싶을 때입니다.

— 예시 ▸ 같은 원본, 세 가지 오디오 분위기 —

같은 캐릭터, 같은 프롬프트, 같은 액션. 바꾼 건 오디오 레퍼런스뿐.

▸ @IMAGE1 원본
PixAI 오디오 실험의 원본 이미지
▸ @AUDIO1 ▸ 애잔함

애잔함. 가라앉는 현, 느린 박자, 쓸쓸한 공기.

▸ @AUDIO1 ▸ 몽환

몽환. 떠다니는 패드, 공중에 머무는 음색, 부드러운 잔향.

▸ @AUDIO1 ▸ 경쾌함

경쾌함. 밝은 리듬, 활기찬 편곡, 따뜻한 감정.

▸ 프롬프트 보기
@Image1 — hair strands drift and flutter gently in the breeze. The flowers behind her sway softly with the wind. The camera slowly moves in to a close-up on her face as she reaches out her hand to touch a bubble floating in the air. Reference the rhythm and atmosphere of @Audio1.

PART TWO

애니 영상용 텍스트 프롬프트 작성
— 두 가지 상황으로 나뉩니다

대부분의 프롬프트 가이드는 하나의 “공식”을 던지고 끝납니다. 하지만 실제 작성 작업은 두 상황으로 나뉘고, 각각에서 써야 할 기법도 다릅니다.

상황 ▸ 01

만들고 싶은 컷이 이미 머릿속에 있을 때

컷 이미지가 명확하다면 ── 예를 들어 “카메라가 그녀 얼굴로 천천히 다가가고, 꽃잎이 왼쪽에서 오른쪽으로 흐르며, 두 번째 비트에 그녀가 돌아본다” ── 그대로 쓰면 됩니다.

여기서 빠지기 쉬운 함정이 “영화 같아 보이는 모호한 표현”입니다. “줌인”은 v4.0 Preview에게는 “돌아보는 동작에 맞춰 카메라가 천천히 다가간다”보다 훨씬 정보량이 적습니다. “카메라 무빙” 같은 추상어 대신 실제 촬영 용어를 쓰세요 ── push in(피사체로 다가간다), pull back(피사체에서 빠진다), tilt up(위쪽으로 기울인다), drift(흐르듯 이동), orbit(돌면서 감싼다), pan(좌우로 휘두른다), dolly(앞뒤로 이동). 동작 순서를 전달할 때는 “그 다음”, “그리고” 같은 연결어가 중요합니다. “그녀는 시선을 떨어뜨리고, 천천히 카메라로 눈을 올리며, 옅게 미소 짓는다” ── 이렇게 쓰면 시선이 떨어진 다음 → 카메라를 보고 → 미소짓는 흐름이 분명해집니다. 연결어가 없으면 모델은 여러 동작을 하나의 정지된 순간으로 뭉뚱그려버립니다.

이건 비교적 간단한 케이스입니다. 머릿속에 이미 영상이 있다면 프롬프트 작성 습관 섹션으로 넘어가세요.

상황 ▸ 02

이미지는 있는데, 어떻게 움직일지는 안 정해졌을 때

사실 대부분의 영상 생성은 여기서 시작됩니다. 마음에 든 일러스트를 발견해서 “움직이게 하고 싶다”고 생각하지만, 뭘 시킬지는 모릅니다. 대부분의 가이드는 이 부분을 건너뜁니다. 완성된 그림이 이미 머릿속에 있다는 전제로 쓰여 있기 때문입니다.

이런 상황에서 실제로 효과를 보는 게 아래의 반복 개선 루프입니다.

— 반복 개선 루프 —
01

LLM으로 초안 만들기.

이미지를 Claude나 ChatGPT에 넣고 짧은 영상 프롬프트를 요청하세요. 그 결과를 완성본이 아니라 원재료로 다루세요.

02

가벼운 모델로 테스트.

초안을 v4.0 Lite Preview나 v2.7 하이 다이내믹에서 돌리세요. 빠르고 저렴하면서 구조는 Preview와 거의 같습니다. 모델 비교는 PixAI v4.0 Preview란? 글에서 확인하세요.

03

프롬프트가 아니라 “실패”를 읽으세요.

영상을 보고 무엇이 빗나갔는지 확인하세요. 수정 포인트는 내가 쓴 문장이 아니라, 의도와 결과 사이의 간극에 있습니다.

04

최종본만 v4.0 Preview에서 돌리세요.

같은 프롬프트를 v4.0 Preview에서 생성합니다. 성능 차이로 움직임이 부드러워지고, 캐릭터 일관성이 올라가고, 라이팅 표현도 섬세해집니다.

초안을 짜고 → 가벼운 모델로 테스트하고 → 실패를 읽고 → 최종본을 돌린다. 이 루프가, 도구를 이해한 사람의 영상과 “첫 시도 그대로의 영상”을 가르는 경계선입니다.

▸ 자주 빠지는 실수

v4.0에서 피해야 할 AI 영상 프롬프트 실수

5가지 실패 패턴, 5가지 해결 방법.

앞에서 말한 반복 루프가 제대로 돌아가려면, 무엇이 실패였는지 정확히 짚어낼 수 있어야 합니다. 아래는 저희가 가장 자주 마주친 실패 패턴과, 실제로 통했던 수정 방법입니다.

01

LLM이 레퍼런스 이미지에 없는 특징을 멋대로 채워 넣는다

LLM은 “고양이 귀 소녀”라고 하면 꼬리도 있을 거라 추측합니다. “세일러복”이라고 하면 이미지에 없어도 넥타이를 추가하기도 합니다. 문제는 그렇게 더해진 요소가 영상 도중에 갑자기 만들어진다는 점입니다 ── 저희 테스트에서도 이게 네 번 발생했습니다.

▸ 해결 방법

초안 프롬프트를 레퍼런스 이미지 옆에 놓고 다시 읽으면서, 실제로 안 보이는 요소는 전부 지우세요.

▸ 실패 사례 영상 보기
▸ 원본
PixAI 실패 사례의 원본
▸ 실패한 결과

▸ 프롬프트 (LLM이 멋대로 추가한「her tail flicking gently」를 강조)

A cute young anime cat girl in close-up, white short hair, cat ears, heart-shaped ahoge, large purple eyes with small pink hearts in the pupils, wearing a navy sailor uniform with a blue ribbon scarf and a small black beret on her head, soft pink blush on her cheeks.

She is resting her chin on both hands cupped under her face, gazing softly at the camera with a shy smile. Small pink heart particles and sparkle stars float gently around her in the air. Soft cyan and pink pastel light surrounds her like a dreamy glow.

The video starts with her looking down shyly, then she slowly lifts her eyes to meet the camera and gives a tiny knowing smile, her tail flicking gently behind her, one heart particle drifting up past her face. The camera slowly pushes in toward her face during this moment.

Anime illustration style, soft painterly textures, kawaii aesthetic, dreamy pastel lighting, intimate close-up framing, gentle slow motion energy.

02

LLM이 “연출”이 아니라 “묘사”만 한다

초안 프롬프트에서 자주 보이는 패턴이 ── 정지 이미지를 줄곧 묘사만 하는 것입니다. 리본, 액세서리, 옷 주름까지 외형 설명만 잔뜩 들어가 있고, 정작 움직임이 하나도 없습니다. 그러면 결과 영상도 사실상 정지화면이 됩니다.

▸ 해결 방법

묘사 문장은 과감히 지우고, “무엇이 변하는가”를 나타내는 동사만 남기세요.

▸ 실패 사례 영상 보기
▸ 실패한 결과 ── 정지된 장면

▸ 프롬프트

Two cat girls appear together in this video, facing each other as opposites — the angel and the devil.

Character from @image1 and character from @image2 face each other in an empty void of soft pastel light, no environment, no background — only the two characters and a dreamy gradient atmosphere of soft pink and lavender mist around them. They stand close together, the angel on one side and the devil on the other, eyes meeting in mutual recognition.

The angel slowly raises her hands to form a heart shape near her chest with a gentle smile. The devil mirrors the gesture but with a playful smirk, sticking out her tongue. They lean slightly toward each other, sharing a quiet moment of acknowledgment as if they understand they are two halves of the same person. Soft sparkle particles drift between them in the void. The camera holds steady at medium shot, framing both characters in the same frame throughout.

03

한 컷에 요소를 너무 많이 욱여넣는다

발렌타인 분위기 장면을 부탁하면 LLM이 이런 제안을 하기도 합니다 ──”그녀는 장미 정원에 서서, 장미를 들고, 꽃잎이 흩날리고, 풍선이 떠다니고, 초콜릿이 흘러간다.” 한 컷에 열다섯 가지 요소. 결과는 그냥 시각적 노이즈입니다.

▸ 해결 방법

한 장면은 “하나의 피사체 + 하나의 동작 + 하나의 환경 연출”로 좁히세요.

04

모델이 프롬프트를 정당화하려고 “물리 법칙”을 끌어다 쓴다

예전에 저희는 이렇게 썼습니다 ──”금붕어가 그녀 주변을 떠다닌다.” 그랬더니 v4.0이 금붕어가 거기 있는 이유를 맞추려고 갑자기 물웅덩이와 수중 공간을 생성했습니다. 모델은 별도 지시가 없으면 현실의 물리 법칙에 맞추려 합니다.

▸ 해결 방법

초현실적 요소는 전제까지 못 박으세요 ──”금붕어는 공중에 떠다닌다. 이건 꿈 속이고, 현실의 물리 법칙은 필요 없다”처럼.

▸ 초기 결과와 수정 후 비교
▸ 초기 ── 물을 멋대로 생성
▸ 수정 후 ── 꿈으로 명시

▸ 수정 후 프롬프트 (핵심 수정: 명시적인 “꿈” 프레임 + 비트별 타임라인)

Transform this static character art from @image1 into a gacha-style animated character card, following the same camera motion and pacing style as @video1.

CAMERA MOTION (mirroring the path of @video1):
[0-1.2s] Open on a close-up of her left hand holding the small red-stringed charm pouch (omamori) at her waist. Soft warm light on the red fabric, goldfish drifting slowly past in the soft background blur.
[1.2-2.5s] The camera slowly drifts upward along her body — past her green striped yukata, settling onto her face. More goldfish become visible, gently swimming through the air around her, pink petals drifting across the frame.
[2.5-3.5s] At her face, the camera gently lingers — her purple eye meeting the viewer softly, the goldfish continuing their slow parallax behind her. The camera makes a subtle floating motion as if caught in the same dream.
[3.5-4.2s] The camera slowly pulls back to reveal the full composition — her standing beneath the temple roof eaves, goldfish suspended in the air around her, petals drifting.
[4.2-5s] CARD REVEAL CLIMAX — multiple goldfish swim into view from the edges joining the dream, soft bloom intensifies around the frame.

05

트랜지션만 지정하고 “이음 다리”는 안 만들어준다

“안개 속으로 녹아들 듯 전환되며, 그녀가 무대에 나타난다” ── 사람에게는 자연스러운 연출이지만, 모델은 이걸 거의 매번 하드 컷으로 해석합니다.

▸ 해결 방법

모델이 실제로 애니메이션할 수 있는 물리적인 “이음 다리”를 넣으세요 ── 포털로 변하는 거울, 천천히 열리는 커튼, 화면을 가로지르는 꽃잎.


▸ 프롬프트 작성 습관

깔끔한 결과물을 뽑아내는 프롬프트 작성 습관

충분히 많이 돌려보면 공통점이 보이기 시작합니다.

01

소설가가 아니라 “감독”으로 쓰세요

문장은 짧고 단정적으로. 한 문장에는 정보 하나만. “머리카락이 살짝 흔들린다. 고정 샷. 천천히 눈을 깜빡인다.” ── 이렇게 쓰면 v4.0 Preview는 설명문이 아니라 연출 지시로 읽습니다.

▸ 예시

02

어떤 종류의 타임스탬프를 쓰는지 의식하세요

[Scene 1: 0-3s] 형식은 v4.0 Preview에 컷을 전환하라고 지시합니다. 반면 [0-1.2s] 형식은 하나의 이어진 컷 안에서의 흐름을 지시합니다. 종이 위에서는 비슷해 보여도 용도가 다릅니다 ── 이걸 섞어 쓰는 게 멀티샷 프롬프트가 슬라이드쇼처럼 나오는 가장 큰 원인입니다.

▸ 예시

03

대사에는 정해진 형식이 있습니다

음성 대사는 3요소로 구성합니다 ── 목소리 특징 → 감정 톤 → 대사(원어 그대로).

Voice line — 수줍은 왕자 같은 목소리, 따뜻하고 살짝 떨리는 톤: “저기…… 점심, 같이 갈래?”

중요한 건, 로마자로 변환하지 않는 것. v4.0 Preview는 음성 생성 시 로마자 표기보다 원어 문자를 더 정확하게 처리합니다.

▸ 예시

04

SFX는 영화 사운드 디자인처럼 쓰세요

효과음은 긴 문장으로 설명하기보다, 요소를 끊어 나열하는 게 통합니다:

SFX: 거센 빗소리 — 멀리서 우는 천둥 — 정적 — 하나의 심장 박동

사운드스케이프를 문단으로 늘어놓는 것보다 훨씬 정확하게 해석됩니다.

▸ 예시

05

코믹 스트립은 실제로 존재하는 출력 모드입니다

쓰고 싶다면 명시적으로 지정하세요:

From left to right, top to bottom, present this as a comic strip. Add special sound effects for scene transitions.

이렇게 쓰면 v4.0 Preview는 멀티 패널 만화 모드로 전환됩니다 ── 애니메이션 패널 + 장면 전환 연출. 움직이는 만화 페이지나 동인 PV 제작에 쓸 수 있습니다.

▸ 예시

▸ 모두 모아보면

모두 모아보면

실제 v4.0 Preview 생성은 이런 식으로 구성됩니다:

▸ 레퍼런스
  • @image1 ── 캐릭터 레퍼런스(깨끗한 스탠딩 컷, 포즈는 자유)
  • @image2 ── 무대 배경만 담긴 장면 이미지
  • @video1 ── 카메라 연출용 애니메이션 레퍼런스
▸ 프롬프트

@image1의 캐릭터가 @image2 무대 중앙에 서서, 조용한 자신감으로 정면을 본다. 카메라가 그녀 얼굴로 천천히 다가가고, 그러자 벚꽃잎 몇 장이 주위로 떠오른다. @video1의 느리고 몽환적인 카메라 템포를 따라 연출한다.

레퍼런스 세 개, 프롬프트 네 줄, 시네마틱 영상 한 편. 중요한 건, 실제 부하의 대부분을 레퍼런스가 처리하고 있다는 점입니다. 프롬프트는 움직임과 연출의 방향만 잡고, 나머지는 반복 루프가 실패를 잡아 고쳐 나갑니다.

v4.0 Preview의 진가가 살아나는 워크플로는, 결국 이런 모양입니다.

PART THREE

제작 워크플로
— Mio.2 프리프로덕션 + Edit Pro 만화

Mio.2를 쓸 때 vs 직접 프롬프트를 쓸 때

▸ MIO.2를 써야 할 때

캐릭터는 있는데 구체적인 영상 이미지가 아직 흐릿할 때. Mio.2 에이전트가 6단계 프리프로덕션 ── 아이디어 제안, 스크립트, 컷 구성, 레퍼런스 이미지 생성 ── 을 진행하고, 마지막에 완성된 v4.0 Preview 프롬프트까지 뽑아줍니다.

▸ 직접 써야 할 때

머릿속에 이미 명확한 컷과 연출이 있는 경우(앞의 상황 1). 프리프로덕션은 건너뛰고, 1~2장의 레퍼런스 이미지와 깔끔한 v4.0 Preview 프롬프트로 바로 생성에 들어갑니다.

실제 제작 작업은 오히려 앞쪽 케이스가 많습니다. 그래서 워크플로 1이 존재합니다 ── Mio.2는 “좋아하는 캐릭터가 있다”를 “공개할 수 있는 15초 애니메이션 영상이 완성됐다”로 바꿔주는 다리입니다.

워크플로 ▸ 01

Mio.2로 진행하는 AI 영상 프리프로덕션 ── 6단계

캐릭터 + 흐릿한 아이디어에서, 15초 쇼츠까지.

캐릭터는 있고 아이디어도 있는데, 채워야 할 15초가 비어 있는 상태에서 쓰는 워크플로입니다. 6개 공정을 하나의 Mio.2 대화 안에서 이어서 진행합니다 ── 그래야 에이전트가 단계마다의 맥락을 잃지 않고 기획부터 완성까지 일관되게 따라옵니다.

아래 예시는 실제 사례입니다 ──”그녀가 바치지 못한 마음”이라는 백합 × 비극 쇼츠. 주인공은 은발 / 고양이 귀 / 안대를 한 도박사 소녀입니다.

— 최종 완성품 —

“그녀가 바치지 못한 마음” ── 6단계 워크플로가 만들어낸 15초 쇼츠.

STAGE 01

스토리 피치 만들기

먼저 캐릭터 이미지를 업로드하고 다음과 같이 요청합니다:

▸ 유저 프롬프트
Based on the character in this image, suggest 5 short-form anime story pitches in the [genre/vibe] direction. For each pitch, include a one-line logline, the opening shot or first line, and what emotional reaction it's going for.

왜 이게 통하는가: [genre/vibe]에는 원하는 방향을 넣으세요 ──”jirai-yuri tragedy(지뢰계×백합×비극)”, “isekai villainess comedy(이세계×악역영애×코미디)”, “casino gambling thriller(카지노×도박×스릴러)”, “slice-of-life with one twist(살짝 비튼 일상물)”. 비워두면 무난하고 일반적인 피치만 나옵니다. 반대로 장르나 분위기를 먼저 못 박으면, 그대로 제작에 쓸 수 있는 피치로 떨어집니다.

▸ MIO.2 출력 ▸ 5가지 스토리 피치
PixAI Mio.2가 출력한 5가지 스토리 피치

STAGE 02

피치 다듬기

마음에 드는 피치 하나를 골랐다면, 구체적인 수정 지시를 줘서 다듬어 갑니다:

▸ 유저 프롬프트
Develop pitch #[N]. Change: [what to adjust]. Keep: [what to preserve]. Rewrite the pitch with these changes, keeping the same emotional core.

왜 이게 통하는가: Change(바꿀 것) / Keep(유지할 것) 구조를 쓰면 AI가 전체를 멋대로 다시 쓰는 걸 막을 수 있습니다. 이 구조가 없으면 AI는 대화 이력 속에서 이전 피치를 슬그머니 덮어쓰는 경우가 종종 있습니다.

▸ MIO.2 출력 ▸ 다듬어진 피치
PixAI Mio.2가 다듬어 출력한 스토리 피치

STAGE 03

먼저 전체 구성을 만들고, 그 다음 압축하기

우선 풀버전부터 만듭니다:

▸ 유저 프롬프트
Outline this pitch as a [15-second] anime short with a hook (first 2s), build (story beats with rough timing), and final image. Include the actual dialogue lines. The premise should be conveyed indirectly through visuals and subtext — never stated out loud.

왜 이게 통하는가: [duration]에는 원하는 영상 길이를 넣으세요. 프롬프트 안의 “절대 말로 설명하지 말 것”은 가장 중요한 제약입니다 ── AI는 짧은 분량에 압축할수록 설명 과잉으로 흐르기 쉽습니다. 이 한 줄이 있으면 대사는 “설명”이 아니라 “서브텍스트”로 작동하기 시작합니다.

▸ 구성 ── 파트 1
PixAI Stage 3 구성 파트 1
▸ 구성 ── 파트 2
PixAI Stage 3 구성 파트 2

STAGE 04

샷 리스트 만들기

▸ 유저 프롬프트
Break this script into a shot list with a maximum of [number] shots. For each shot, specify timing, frame composition, what's in the frame, camera movement, key visual detail, and dialogue or on-screen text. If you produce more than [number] shots, compress to exactly [number] — each shot must do irreplaceable work.

왜 이게 통하는가: [number]에는 쓸 레퍼런스 이미지 수에 맞춰 값을 넣으세요. v4.0 Preview는 최대 6장까지 레퍼런스 이미지를 받지만, 실제로는 3~4장이 6장보다 안정적으로 좋은 결과를 냅니다. 레퍼런스가 많을수록 모델의 주의가 분산되기 때문입니다 ── 처음부터 4컷만 만들게 하기보다, 일단 넉넉히 뽑은 다음 좁히는 편이 결과적으로 더 좋은 컷을 고르게 됩니다.

▸ MIO.2 출력 ▸ 샷 리스트
PixAI Mio.2가 출력한 샷 리스트

STAGE 05

레퍼런스 이미지 생성하기

Mio.2(또는 이미지 생성 에이전트)에 보낼 프롬프트:

▸ 유저 프롬프트
Based on the shot list below, generate [N] storyboard images for video generation. Use the attached character reference image(s) to keep the character consistent across all shots. Do not include any text in the images. Match the art style of the reference.

[Paste your Stage 4 shot list here.]

왜 이게 통하는가: 캐릭터 레퍼런스 이미지를 반드시 첨부하세요 ── Mio.2는 그걸 “캐릭터 일관성을 잡는 기준”으로 사용합니다. “이미지에 텍스트는 넣지 않는다”, “레퍼런스의 화풍에 맞춘다” ── 이 두 제약이, 생성된 그림을 v4.0의 레퍼런스 소재로 그대로 쓸 수 있는 상태로 유지해줍니다.

▸ 첫 생성의 에러 잡기

첫 생성이 완벽한 경우는 거의 없습니다. 자주 보이는 문제는 ── 머리 길이가 다르다, 눈 색이 바뀌었다, 단독 컷에 불필요한 캐릭터가 추가됐다, 시그니처 액세서리가 엉뚱한 캐릭터한테 붙어 있다. 전부 한 번의 지시로 고칠 수 있습니다. 중요한 건 “무엇이 틀렸는지”를 구체적으로 짚어주는 것:

“Shot 3을 다시 생성해 주세요. 화면에는 도박사만 두고, 두 번째 캐릭터는 빼주세요. 눈 색은 선명한 보라색으로 확인해 주세요. Shot 2도 수정해 주세요 ── 세일러복의 고양이 귀 소녀에게는 안대를 씌우지 마세요.”

▸ 레퍼런스 ── SHOT A
PixAI Stage 5 레퍼런스 A
▸ 레퍼런스 ── SHOT B
PixAI Stage 5 레퍼런스 B

STAGE 06

Mio.2에게 v4.0 프롬프트 작성시키기 ── 마무리 공정

앞선 5단계의 성과가 결실을 맺는 지점입니다:

▸ 유저 프롬프트
Based on the script and shot list from earlier in this conversation, write a v4.0 Preview video prompt for the [N] reference images you just generated. For each timestamped beat, include: time range, which @image to reference, action and camera description, dialogue (with the exact lines from the script), and SFX cues. Use em dashes for layered SFX. Keep total prompt length under 2000 characters.

Example output format:
0s–Xs: @Image 1 [Action description with camera movement]. [Character]: "[Exact line from script.]" SFX: [sound 1] — [sound 2] — [sound 3]
Xs–Ys: @Image 2 [Action description]. [Character]: "[Exact line.]" SFX: [layered sounds with em dashes]
[Continue for each beat. End with fade-to-black instruction if applicable.]

왜 이게 통하는가: “exact lines from the script(스크립트의 대사를 그대로 사용)”라는 지시가 결정적입니다. AI는 프롬프트를 만들 때 대사를 자기식으로 바꾸는 경향이 있는데, 그러면 Stage 3에서 공들여 잡아둔 서브텍스트와 감정의 결이 사라져 버립니다.

Mio.2가 프롬프트를 출력하면, 그걸 복사해서 생성한 4장의 레퍼런스 이미지와 함께 v4.0 Preview에 붙여 넣고 생성을 돌립니다. 이번 테스트 작품에 쓴 최종 프롬프트:

▸ 최종 V4.0 PREVIEW 프롬프트
0s–2s: The white-haired catgirl gambler spins a gold coin between her fingers, smirking confidently. Gold coins float around her in dramatic lighting. SFX: metallic spin — tense atmosphere

2s–4s: Cut to sailor catgirl across the table, her hand trembling, heart pendant catching light. She whispers: "You said you'd find me again. Even if it took everything." SFX: soft tearful voice

4s–6s: Back to gambler, leaning in with delighted grin: "Cute line. Did you rehearse it?" Cards slap down. SFX: playful tone — card impact

6s–10s: Match cut — the coin falls through memory space. Two catgirls on a cliff, heart pendant being clasped, promise whispered. Everything dissolves into golden dust as coin lands. SFX: warm wind — ethereal chime — distant promise

10s–13s: Gambler blinks, something behind her eyes going quiet. She looks up, studying the crying girl with genuine curious smile: "...sorry, kitten. Do I know you?" SFX: silence — single heartbeat

13s–15s: Sailor catgirl's hand closes around her heart pendant. She smiles through tears, soft: "Not yet. Deal again?" Fade to black. Coins fall. SFX: emotional catch — coin clatter — silence

레퍼런스 4장, 비트 6개, 대사 3줄, 겹쳐 쌓은 SFX. 완성된 건 한 줄짜리 프롬프트에서 즉흥적으로 나온 15초 영상이 아니라, 6단계를 거쳐 쌓아 올린 15초의 이야기입니다.

▸ 마지막 장면 레퍼런스
PixAI 마지막 장면 레퍼런스 이미지

워크플로 ▸ 02

Edit Pro × v4.0 Preview로 만드는 애니메이션 만화

동인 PV와 움직이는 만화 페이지용.

멀티 패널 만화 페이지를 움직이게 하고 싶을 때 쓰는 워크플로입니다 ── 움직이는 리액션, 템포 좋은 개그 연출, 동인 PV 같은 분위기에 잘 맞습니다.

▸ 베이스 ── 만화 페이지
PixAI Edit Pro 만화 베이스 이미지
▸ 결과 ▸ V4.0 PREVIEW

Edit Pro가 레이아웃을 맡습니다: 컷 배치, 각 장면의 구도, 읽는 순서를 정리해서 완성된 만화 페이지를 한 장의 이미지로 내보냅니다. 그 이미지를 v4.0 Preview에 넣고 다음 프롬프트를 씁니다:

▸ V4.0 PREVIEW 프롬프트
Present the comic story from top to bottom in a [tone] style, with smooth storytelling and expressive character reactions. Add adorable anime-style sound effects throughout the scenes, such as "boing," "bam," "wah," and "sparkle," to enhance the atmosphere and make the comic feel lively and dynamic.

[tone]에는 작품에 맞는 분위기를 넣으세요 ──”cute and humorous(귀엽고 코믹한)”, “elegant(우아하고 섬세한)”, “dramatic(드라마틱한)” 같은 식. 저희는 2컷 개그부터 6컷 구성까지 테스트해봤는데, 같은 템플릿으로 다 커버되었습니다.

▸ FAQ

자주 묻는 질문

하나의 v4.0 Preview 프롬프트에 레퍼런스 이미지는 몇 장까지 첨부할 수 있나요?

최대 6장까지 첨부할 수 있습니다. 다만 저희 테스트로는, 잘 고른 2~3장이 6장보다 안정적으로 더 좋은 결과를 냈습니다. 이미지를 한 장 더 넣을 때마다 “캐릭터가 어떻게 보여야 하는가”에 대한 또 다른 한 표가 모델에 들어가고, 결국 그걸 평균내기 때문입니다.

v4.0 Preview의 “레퍼런스 이미지”와 “시작 프레임”의 차이는?

레퍼런스 이미지는 의미적 레퍼런스입니다 ── v4.0은 이걸로 캐릭터의 특성을 읽고, 이후의 포즈와 동작은 프롬프트로 결정합니다. 한편 시작 프레임(키프레임 모드)은 영상의 첫 프레임 자체를 고정합니다. 키프레임 모드와 멀티 레퍼런스 모드는 동시에 쓸 수 없으니, 작업 방식에 맞춰 하나를 골라야 합니다. i2v 패널의 모든 설정 항목을 알고 싶다면 PixAI Image-to-Video Tutorial 글도 같이 보세요.

v4.0 Preview는 한국어나 일본어 대사를 생성할 수 있나요?

됩니다. 대사는 반드시 원어 문자 그대로 적으세요 ── 한국어는 “”, 일본어는 「」. 절대로 로마자로 변환하지 마세요. “Konnichiwa” 같은 로마자 표기는 거의 항상 어색한 음성으로 나옵니다.

v4.0 Preview에서는 영상을 최대 몇 초까지 생성할 수 있나요?

1회 생성당 최대 15초입니다. 레퍼런스 영상도 같은 제한이 적용됩니다 ── 여러 영상 레퍼런스를 쓰는 경우에도 총 길이가 15초를 넘어선 안 됩니다.

프롬프트 조정 중에는 v4.0 Preview와 v4.0 Lite Preview 중 어느 쪽을 써야 하나요?

초안 작성과 구조 테스트에는 v4.0 Lite Preview 또는 v2.7 High Dynamics를 추천합니다. 빠르고, 아래 같은 문제는 충분히 잡아낼 수 있습니다 ── 모호한 동작 지시, 부자연스러운 트랜지션, 부족한 레퍼런스. 프롬프트가 완성되면, 최종 생성은 v4.0 Preview에서 돌리세요. 모델 간 비교는 PixAI v4.0 Preview 능력 총정리를 참고하세요.

▸ 관련 글

함께 읽으면 좋은 글

▸ i2v 튜토리얼 (영어 글)PixAI Image-to-Video Tutorial: Model Comparison & Prompt WritingPixAI에서 쓸 수 있는 모든 동영상 모델 비교, i2v 패널의 각 설정 항목의 의미, 용도별 모델 선택 기준까지 한 번에 정리.
▸ v4.0 PREVIEW 능력 총정리PixAI v4.0 Preview란? 새 기능과 기존 모델과의 차이음성 생성, 레퍼런스 영상, 레퍼런스 이미지의 의미적 해석 ── v4.0 Preview가 PixAI 영상 모델 라인업에서 어떤 위치에 있는지 한눈에.
▸ MIO.2 입문Mio.2 시작하기 ── 상상하면, Mio가 그려준다본문 워크플로 1에서 6단계 프리프로덕션을 맡았던 Mio.2의 기본 사용법과 잘 처리하는 작업 유형 소개.
▸ EDIT PRO 가이드PixAI Edit Pro ── 복잡한 편집을 위한 AI 이미지 에디터워크플로 2에서 레이아웃을 담당했던 Edit Pro. 컷 배치, 구도, 멀티 이미지 합성의 실제 사용법을 사례와 함께 정리.
▸ REFERENCE PRO 가이드 (영어 글)PixAI Reference Pro Guide ── Multi-Image Editing with Natural Language레퍼런스 이미지와 자연어 프롬프트를 조합하는 기법. Stage 5에서 만든 레퍼런스 이미지를 v4.0에 넘기기 전에 더 다듬을 때 유용합니다.
▸ TSUBAKI.2 완전 가이드Tsubaki.2 ── PixAI 최신 플래그십 모델의 모든 것본문 Stage 5에서 레퍼런스 이미지를 만들 때 쓰는 핵심 모델. 한국어를 포함한 자연어를 그대로 받는 Tsubaki 시리즈의 최신판을 정리.

▸ FINAL CUT
CTA ▸ 002

— 준비되셨나요? —

지금, 첫 v4.0 Preview 영상을 만들어 보세요

v4.0 Preview를 잘 다루는 데서 진짜 어려운 부분은 프롬프트를 어떻게 쓰느냐가 아닙니다. 한 글자도 적기 전에 무엇을 준비할지가 핵심입니다. 깨끗한 캐릭터 레퍼런스 이미지를 고르세요. 자신이 상황 1(이미지가 명확)인지, 상황 2(이미지가 흐릿)인지 가려내세요. 첫 생성에 기대를 걸지 말고, 반복 개선 루프를 돌리세요. 필요하면 프리프로덕션은 Mio.2에 맡기세요.

먼저 아이디어의 가장 단순한 버전부터 시작해 보세요.

매일 무료 크레딧 ▸ 신용카드 불필요 ▸ 브라우저에서 바로 시작

인덱스