DiTモデル向けプロンプト作成ガイド
このガイドでは、PixAIでより良いPromptを書くための実用的なコツを紹介しています。SDXLとDiT系モデルを中心に、Prompt構成、便利なタグ、モデル推薦、LoRAの使い方、実際のモデルレビューをまとめています。画像品質やスタイル制御、生成結果を向上させたいクリエイターに役立つ参考資料です。
編集者注(PixAI)
本ガイドは、コミュニティの優れたクリエイター 阿童 (ATone) 氏によって執筆されたものです。原作者のクレジットを明記した上で、こちらに転載しております。
PixAIの Tsubaki / Serin / Tsubaki Flash などのDiTモデルは、SDXL系モデルとはプロンプトの書き方が大きく異なります。
本章では、SDXLには慣れているものの、DiTを使い始めたばかりのユーザー向けに、DiTプロンプト作成の基本SOPをまとめました。
目次
基本原則
DiTモデルは英語のプロンプトのみ対応しており、さらに自然な英語による文章形式で記述することを強く推奨します。
イメージとしては、タグを並べるのではなく、プロのイラストレーターに作品の内容を説明するように書くほど、より良い結果が得られます。
なぜDanbooruタグを使わないのか?
- SDXL系モデル(Illustrious、NoobAIなど)のText EncoderはCLIPを採用しており、CLIPは学習時にDanbooruやe621のタグデータを大量に使用しているため、タグ形式との相性が非常に良好です。
- 一方、DiTモデルはLLMに近いText Encoderを採用しており、自然言語による文章理解能力が大幅に向上しています。そのため、タグだけを並べたプロンプトよりも、自然な文章のほうが得意です。
- その結果、SDXLで必要だった「Danbooruタグに存在する表現を使わなければならない」という制約は、DiTではほとんど気にする必要がありません。例えば、SDXLでは
young manが認識されにくく1boyを使う必要がありましたが、DiTでは一般的な英語表現として自然に記述できます。
実例比較:モデル × プロンプトスタイル
同じプロンプトを使用しても、モデルによって出力結果は大きく変わります。
ここでは、PixAI公式キャラクター ミオのLoRA(DiT版・SDXL版の同一キャラクター、「春日の響き」翠緑バージョン)を使用し、同じテーマ・同じシーンで、モデルとプロンプトスタイルだけを変更した比較を行います。
自然言語プロンプト
タグ積み上げ型プロンプト
Tsubaki.2 (DiT)
Illustrious-XL (SDXL)
對角線(A、D)兩個都是「模型 + prompt 風格」匹配的組合、效果最自然;另一條對角線(B、C)則出現意外效果——不適當的配對會讓即使是同一個 LoRA、同一個場景主題、結果也跑掉。
対角線上の A と D は、どちらも「モデル+プロンプトスタイル」が適切にマッチした組み合わせであり、最も自然な結果になっています。
一方、もう一方の対角線である B と C では、想定外の結果が見られます。
つまり、適切でない組み合わせでは、同じLoRA・同じシーン・同じテーマであっても、結果が崩れてしまうのです。
SDXL → DiT移行時によくある落とし穴
SDXLからDiTへ移行する際は、次のような習慣を見直す必要があります。
| ❌ SDXLでよく使われる書き方 | DiTでなぜ適さないのか/ 推奨される書き方 |
| 1boy, solo, masterpiece, best quality | DiTは品質タグで画質を向上させる仕組みではない;「A young man standing alone in a cinematic scene」のような自然な文章にする |
| 大量の品質タグ(8k, ultra-detailed, extremely detailed など) | DiTモデル自体が安定して高画質なため、品質タグを重ねると意図した結果にならないことがある。本当に品質が悪い場合を除き、同じ意味のスタイル語を繰り返し書く必要はない。 |
| アンダースコアで繋いだタグ(black_hair,looking_at_viewer など) | DiTは自然な英語をそのまま理解するため、アンダースコアを使う必要がない |
| 括弧による重み付け(black hair:1.2) | DiTはこのような重み付け構文を認識しない;強調したい要素は文章を組み直し、前の方に配置する |
| right: … left: … のようなブロック分けや、BREAK を使った複数キャラクターの分離 | DiTでも一定の効果はあるが、特に大きな効果はない;代わりに自然な文章で人物同士の関係やシーン全体を描写した方が、より生き生きとした画面になりやすい(後述の複数人物の例を参照) |
生成パラメータの違い
プロンプトの書き方だけでなく、一部のDiTモデル(Tsubaki.2など)はパラメータ設定画面もSDXLとは異なります。
- CFG Scale やステップ数の設定が存在しない場合がある——SDXLでよく調整するこれらの2つのパラメータは、Tsubaki.2の画面にはありません。
- 代わりに「モード(Mode)」で品質と速度を調整する:選択肢は ライト / スタンダード / プロ / ウルトラ。仕組みとしてはSDXLの「ステップ数」に近く、設定を上げるほど高品質になりますが、その分クレジット消費も増えます。
- デフォルトの「標準」でも十分高品質です。最高レベルのディテールが必要な場合のみ「プロ」を使用することをおすすめします。
シーン1:一人絵
推奨される記述順序:
| 順序 | 内容 | なぜこの順番なのか |
| 1 | 画風 / 全体の雰囲気 / カメラワーク | 先に作品全体の方向性を与えることで、後続の要素もその方向性に沿って統一されやすくなる |
| 2 | 主人公 + 動作 / ポーズ | 続いて画面の主役を明確にする |
| 3 | 服装とアクセサリー | キャラクターの位置付けを決めてから細部を描写する |
| 4 | 前景の小物 | 視覚的な見どころを補足する |
| 5 | 背景環境 | 前景から背景へ、近景から遠景へ描写する |
| 6 | ライティングとエフェクト | 最後に全体の雰囲気を整えて仕上げる |
凡例:
A cinematic medium shot of a young Taiwanese girl with long silver hair and purple eyes, gently smiling, wearing an elegant white lolita dress with intricate lace, standing in a cherry blossom garden, soft pink petals floating in the air, warm golden hour sunlight filtering through the trees, highly detailed, beautiful anime style
💡 ここでは
young Taiwanese girlと書かれている点に注目してください。これはSDXLでは存在しないタグであり、CLIPによって誤って解釈される可能性がありますが、DiTでは自然な表現として問題なく使用できます。DiTではDanbooruのタグデータベースを調べる必要はありません。
シーン2:複数人物
DiTにおける複数人物の最大の違いは、タグで分離するのではなく、人物同士の関係性を文章で描写することです。
推奨される記述順序:
| 順序 | 内容 | なぜこの順番なのか |
| 1 | 全体構図 / カメラワーク / 雰囲気 | 単人物イラストと同様に、まず全体の基調を設定する |
| 2 | 人物同士の関係性とやり取り(最重要!) | DiTはこの部分をもとに、誰が誰で、誰と誰がやり取りしているのかを理解する |
| 3 | 各キャラクターの外見・動作・表情(主役から脇役へ) | キャラクターを一人ずつ、重要度の高い順に紹介する |
| 4 | 服装と細部 | キャラクターの説明が終わってから細部を補足する |
| 5 | 背景・ライティング・エフェクト | 単人物イラストと同様に、最後に全体をまとめる |
凡例:
A romantic wide shot under cherry blossoms at sunset, a silver-haired catgirl with purple eyes is tiptoeing to kiss a tall black-haired boy, the boy gently holding her waist, they are looking at each other affectionately, detailed intricate clothing, soft pink petals floating around them, warm golden sunlight, cinematic lighting, emotional atmosphere, beautiful detailed anime style
⚠️ SDXLの複数人物イラストで使われるような分離テクニック——
right: ... left: ...を無理に使う必要はありません。代わりに、「彼女が背伸びをして彼にキスをしている」「彼が優しく彼女の腰に手を添えている」といったように、人物同士の関係性を文章で描写するだけで十分です。
共通のヒント
LoRAトリガーワードの組み込み方(推奨される書き方・十分な検証は未実施)
コミュニティでは一般的に、LoRAのトリガーワードをタグのように先頭へ並べるよりも、文章の一部として自然に組み込んだ方が安定する可能性があると考えられています。
その理由としては、この書き方の方が、トリガーワードと文章内で描写されている対象との対応関係をモデルが理解しやすいためです。
ただし、現時点では十分な検証が行われておらず、LoRAやシーンによって実際の効果は異なる可能性があります。そのため、両方の書き方を試して比較することをおすすめします。
なお、PixAI公式の一部DiT系LoRA(例:ミオのLoRA)では、トリガーワード自体がキャラクター説明の文章として設計されており、もともと文章の中へ自然に組み込んで使用することが想定されています。
例えば、[PixAI Mio/ミオ] Spring Echoes LoRA のトリガーワードは以下のようになっています。
A girl with white-to-pink gradient hair, heart ahoge, purple eyes, eyepatch, cat ears, fang, jirai kei style. Open dark grey glossy leather hoodie over a black bandeau, slight cleavage, cinched waist, pink drawstrings. Black distressed low-rise denim short
この文章をそのままシーンや動作の描写へつなげる方が、別行でprefixとして置くより自然です:
| 書き方 | 例 |
| トリガーワード全体を先頭に置き、その後にシーンを続ける | <トリガーワード段落>. She is walking through neon-lit Shibuya at night. |
| 自然な文章として一体化させる(推奨) | A girl with white-to-pink gradient hair, heart ahoge, purple eyes, eyepatch, cat ears, fang, jirai kei style, walking through neon-lit Shibuya at night, … |
自然に組み込めない場合のみ、先頭または最後の一文として単独で配置する。
ネガティブプロンプト(共通版)
blurry, low quality, deformed hands, extra fingers, bad anatomy, watermark, text, logo, ugly, deformed, mutated
DiTでもSDXLと同様にネガティブプロンプトを使用できます。この基本リストは両方のモデルで共通して利用できます。
スタイル表現はカスタムスタイルを優先して使用
⚠️ Customize Style は Tsubaki.2専用の項目です。他のDiTモデル(Tsubaki v1、Serin、Tsubaki Flash)にはこの項目はありません。
Tsubaki.2では、スタイルに関する記述をCustomize Styleへ分離することで、メインプロンプトをよりシンプルに保つことができます。
一方、他のDiTモデルではCustomize Styleが存在しないため、スタイル表現はメインプロンプトの末尾へ直接組み込んでください。
カスタムスタイル例
| 場景 | カスタムスタイル内容 |
| 一人立ち絵 | delicate anime style, soft lighting, studio ghibli influence |
| 複数人物・ロマンチック | romantic anime style, cinematic, soft bokeh |
