DiT 모델 프롬프트 작성 가이드

이 가이드는 PixAI에서 더 좋은 Prompt를 작성하기 위한 실용적인 팁을 소개합니다. SDXL과 DiT 기반 모델을 중심으로 Prompt 구조, 유용한 태그, 모델 추천, LoRA 사용법, 실제 모델 리뷰를 다룹니다. 이미지 품질, 스타일 제어, 생성 결과를 개선하고 싶은 크리에이터에게 유용한 참고 자료입니다.

편집자 주 (PixAI)

본 가이드는 커뮤니티의 우수 크리에이터 아동 (ATone) 님이 작성하였으며, 원작자 출처를 명시한 후 여기에 재게시합니다.

PixAI에서 출시한 Tsubaki / Serin / Tsubaki Flash 등의 DiT 모델은 프롬프트 작성 방식이 SDXL 계열과 상당히 다릅니다. 본 장에서는 SDXL은 사용할 줄 알지만 DiT는 처음 접하는 사용자를 대상으로, 프롬프트 작성의 기본 SOP를 정리합니다.


핵심 원칙

DiT 모델은 영어 프롬프트만 지원하며, 자연스러운 영어 문장으로 작성하는 것을 강력히 권장합니다. 전문 일러스트레이터에게 장면을 설명하듯 작성할수록 결과가 좋아집니다.

왜 Danbooru 태그를 사용하지 않을까요?

  • SDXL 계열(Illustrious, NoobAI 등)의 text encoder는 CLIP이며, CLIP은 Danbooru/e621 태그 설명을 기반으로 학습되었기 때문에 태그 방식에 최적화되어 있습니다.
  • DiT 모델은 LLM에 더 가까운 text encoder를 사용하므로 자연어를 이해하는 능력이 훨씬 뛰어나며, 오히려 태그 나열 방식에는 덜 적응되어 있습니다.
  • 결과적으로 SDXL에서 존재하지 않는 태그 때문에 제약이 있었던 표현들(예:young man 대신 1boy 사용)이 DiT에서는 더 이상 문제가 되지 않으며, 일반적인 영어 문장으로 자유롭게 작성할 수 있습니다.

실증 비교: 모델 × 프롬프트 스타일

같은 프롬프트를 서로 다른 모델에 입력하면 결과가 크게 달라집니다. 아래 예시는 PixAI 마스코트 Mio의 LoRA(DiT 버전과 SDXL 버전 동일 캐릭터, Spring Echoes 초록색 버전)를 사용해 동일한 테마와 동일한 장면에서 모델과 프롬프트 스타일만 바꿔 엄격하게 비교한 사례입니다.


자연어 프롬프트

태그 나열형 프롬프트

Tsubaki.2 (DiT)

A: 모델 특성에 맞는 프롬프트 ✓
B: DiT는 태그 스타일에 대한 적응력이 상대적으로 약함

Illustrious-XL (SDXL)

C: SDXL은 자연어에 대한 적응력이 상대적으로 약함
D: 모델 특성에 맞는 프롬프트 ✓

대각선(A, D)의 두 조합은 모두 모델과 프롬프트 스타일이 서로 잘 맞는 경우로 가장 자연스러운 결과가 나왔습니다. 반면 다른 대각선(B, C)은 예상치 못한 결과가 발생했습니다. 즉, 같은 LoRA와 같은 장면을 사용하더라도 모델과 프롬프트 스타일의 조합이 적절하지 않으면 결과가 크게 달라질 수 있습니다.


SDXL → DiT 전환 시 자주 하는 실수

SDXL에서 DiT로 넘어올 때는 다음과 같은 습관을 버려야 합니다.

❌ SDXL식 관성적인 작성 방식DiT에서 왜 안 되는가 / 어떻게 바꿔야 하는가
1boy, solo, masterpiece, best qualityDiT는 품질 태그에 의존해 화질을 높이지 않습니다. 대신 자연스러운 문장으로 작성하세요. 예: ‘A young man standing alone in a cinematic scene’
품질 태그를 대량으로 사용(8k, ultra-detailed, extremely detailed)DiT 모델 자체의 화질이 안정적이므로, 품질 태그를 과도하게 쌓으면 오히려 의도와 다른 결과가 나올 수 있습니다. 결과가 정말 나쁜 경우가 아니라면 같은 의미의 스타일 키워드를 반복할 필요가 없습니다.
밑줄 연결(black_hair、looking_at_viewer)DiT는 자연스러운 영어 문장을 직접 이해하므로 밑줄 처리가 필요 없습니다.
괄호 가중치 문법(black hair:1.2)DiT는 이러한 가중치 문법을 인식하지 않습니다. 특정 요소를 강조하고 싶다면 문장을 다시 구성하거나 해당 요소를 앞쪽에 배치하세요.
right: … left: …구역 분리 또는 BREAK를 이용한 다인물 분리DiT에서도 사용은 가능하지만 효과가 특별히 뛰어나지는 않습니다. 대신 자연어로 인물 간의 관계를 서술하는 편이 일반적으로 더 생동감 있는 결과를 얻을 수 있습니다. (아래 다인물 예시 참고)

생성 파라미터 차이

프롬프트 작성 방식뿐 아니라 일부 DiT 모델(예: Tsubaki.2)의 설정 패널도 SDXL과 다릅니다.

  • CFG Scale 및 스텝 수 설정이 없는 경우가 많습니다. SDXL에서 자주 조정하던 두 설정은 Tsubaki.2 인터페이스에는 존재하지 않습니다.
  • 모드(Mode) 를 사용하여 품질과 속도를 조절합니다.라이트 / 스탠다드 / 프로 / 울트라(영문: Lite / Standard / Pro / Ultra). 이는 SDXL의 스텝 수 개념과 비슷하며, 모드가 높을수록 품질은 좋아지지만 크레딧 소모도 증가합니다.
  • 기본값인 ‘스탠다드’만으로도 충분히 좋은 품질을 제공합니다. 극한의 디테일이 필요한 경우에만 ‘프로’를 사용하는 것을 권장합니다.
모드 선택 인터페이스

상황 1: 1인 이미지

권장 작성 순서

순서내용이렇게 배치하는 이유
1화풍 / 전체 분위기 / 카메라 연출먼저 전체적인 톤을 정하면 이후의 모든 요소가 align에 맞춰 정렬됩니다.
2주인공 + 동작 / 자세화면의 중심이 되는 대상을 명확하게 설정합니다.
3의상과 액세서리캐릭터의 위치를 정한 뒤 세부 사항을 설명합니다.
4전경 소품시각적 포인트를 보강합니다.
5배경 환경전경에서 후경으로, 가까운 곳에서 먼 곳으로 설명합니다.
6조명과 특수효과마지막으로 분위기를 완성합니다.

예시:

A cinematic medium shot of a young Taiwanese girl with long silver hair and purple eyes, gently smiling, wearing an elegant white lolita dress with intricate lace, standing in a cherry blossom garden, soft pink petals floating in the air, warm golden hour sunlight filtering through the trees, highly detailed, beautiful anime style

💡 여기서 young Taiwanese girl이라는 표현을 사용한 점에 주목하세요. 이는 SDXL에서는 존재하지 않는 태그라 CLIP이 제대로 이해하지 못할 수 있지만, DiT에서는 자연스러운 서술로 정상적으로 인식됩니다. DiT에서는 Danbooru 데이터베이스를 찾아볼 필요가 없습니다.

상황 2: 다인 이미지

DiT에서 다인 이미지가 SDXL과 가장 크게 다른 점은, 태그로 캐릭터를 분리하는 것이 아니라 관계를 서술한다는 것입니다.

권장 작성 순서

순서내용이렇게 배치하는 이유
1전체 구도 / 카메라 연출 / 분위기1인 이미지와 마찬가지로 먼저 전체적인 톤을 설정합니다.
2인물 간의 관계와 상호작용(가장 중요)DiT는 이 부분을 통해 누가 누구인지, 누가 누구와 상호작용하는지를 이해합니다.
3각 캐릭터의 외형, 동작, 표정 (중요한 순서대로)캐릭터를 한 명씩 소개하며 중요도 순으로 설명합니다.
4의상과 세부 사항캐릭터 설명 후 세부 요소를 추가합니다.
5배경, 조명, 특수효과1인 이미지와 마찬가지로 마지막에 분위기를 마무리합니다.

예시:

A romantic wide shot under cherry blossoms at sunset, a silver-haired catgirl with purple eyes is tiptoeing to kiss a tall black-haired boy, the boy gently holding her waist, they are looking at each other affectionately, detailed intricate clothing, soft pink petals floating around them, warm golden sunlight, cinematic lighting, emotional atmosphere, beautiful detailed anime style

⚠️ SDXL의 다인 이미지에서 사용하던 분리 기법인 right: ... left: ...와 같은 방식을 사용할 필요가 없습니다. 대신 ‘그녀가 발끝을 들어 그에게 키스하고 있다. 그는 그녀의 허리를 부드럽게 감싸고 있다.’와 같은 관계 중심의 서술을 사용하면 됩니다.

공통 팁

LoRA 트리거 워드 삽입 방식(권장 방식이지만 아직 충분히 검증되지는 않음)

커뮤니티에서는 일반적으로 LoRA의 trigger를 태그처럼 따로 나열하기보다, 서술문 안에 자연스럽게 포함시키는 편이 더 안정적일 수 있다고 추정합니다. 그 이유는 모델이 trigger와 설명 대상의 연결 관계를 더 명확하게 이해할 수 있기 때문입니다. 다만 아직 충분한 검증이 이루어지지 않았으며, LoRA나 장면에 따라 실제 효과는 달라질 수 있으므로 두 가지 방식을 모두 시도해 보는 것을 권장합니다.

특히 일부 PixAI 공식 DiT 계열 LoRA(예: Mio LoRA)는 trigger 자체가 긴 캐릭터 설명으로 설계되어 있어 원래부터 서술문 안에 녹여 사용하는 것을 전제로 하고 있습니다. 예를 들어 ‘PixAI Mio/미오’ 봄의 메아리 LoRA의 트리거는 다음과 같습니다.

A girl with white-to-pink gradient hair, heart ahoge, purple eyes, eyepatch, cat ears, fang, jirai kei style. Open dark grey glossy leather hoodie over a black bandeau, slight cleavage, cinched waist, pink drawstrings. Black distressed low-rise denim short

이 문장을 장면 설명 뒤에 자연스럽게 이어 붙이는 것이, 별도의 prefix로 분리하는 것보다 더 자연스럽습니다.

작성 방식예시
Trigger 전체를 맨 앞에 넣고 장면을 이어서 작성<트리거 전체 문장>. She is walking through neon-lit Shibuya at night.
자연스럽게 서술문에 녹여 넣기 (권장)A girl with white-to-pink gradient hair, heart ahoge, purple eyes, eyepatch, cat ears, fang, jirai kei style, walking through neon-lit Shibuya at night, …

정말 자연스럽게 녹여 넣기 어려운 경우에만 맨 앞이나 맨 뒤에 따로 배치하는 것을 권장합니다.

네거티브 프롬프트(공통 버전)

blurry, low quality, deformed hands, extra fingers, bad anatomy, watermark, text, logo, ugly, deformed, mutated

DiT도 SDXL과 마찬가지로 네거티브 프롬프트를 지원하며, 위 기본 목록은 두 모델 계열 모두에서 사용할 수 있습니다.

스타일 설명은 Customize Style에 우선 배치

⚠️ Customize Style은 Tsubaki.2 전용 기능입니다. 다른 DiT 모델(Tsubaki v1, Serin, Tsubaki Flash)에는 해당 입력란이 없습니다. Tsubaki.2에서는 스타일 관련 키워드를 Customize Style로 분리하면 메인 프롬프트를 더 깔끔하게 유지할 수 있습니다. 반면 다른 DiT 모델에서는 스타일 설명을 메인 프롬프트 마지막 부분에 직접 포함시켜야 합니다.

Customize Style 예시

장면Customize Style 내용
단일 캐릭터 일러스트delicate anime style, soft lighting, studio ghibli influence
다인 로맨스 장면romantic anime style, cinematic, soft bokeh

인덱스