このトピックでは、Platform for AI (PAI) ArtLab の Stable Diffusion モデルを使用して画像を生成するための Stable Diffusion Web UI の使用方法について説明します。
PAI ArtLab コンソール にログインします。
背景情報
Stable Diffusion は Stability AI が開発した Text-to-Image AI モデルで、テキストプロンプトに基づいて画像を生成および編集できます。AUTOMATIC1111 が開発した Stable Diffusion Web UI は、ブラウザベースのインターフェイスです。直感的な操作により、プログラミング知識がなくてもモデルの機能を簡単に利用できます。
さまざまなプラグインやモデルを読み込むことで Web UI をカスタマイズし、より制御可能な画像を作成できます。
モデル選択
Object Storage Service (OSS) の対応ディレクトリにモデルをアップロードし、Web UI を再読み込みしてモデル一覧を更新します。Civitai からモデルをダウンロードすることを推奨します。
上記リンクにアクセスできない場合は、プロキシを設定してから再度お試しください。
モデルのドロップダウンリストから、3Guofeng3_v32Light や deliberate_v2、sd_xl_base_1.0 などのモデルを選択します。右側の更新ボタンをクリックしてモデル一覧を再読み込みします。
Txt2img
一般的なプロンプト構造
一般的なプロンプト構造は次のとおりです:接頭辞(品質、スタイル、カメラ効果、ライティング効果)+ 主題(キャラクター&オブジェクト、ポーズ、衣装、小物)+ シーン(環境、詳細)。
-
半角丸括弧
()を使用して語句の重みを増加させます。強調したい語句を丸括弧で囲み、コロンの後に重み値を追加します。例:(beautiful:1.3)。推奨される重みの範囲は 0.4 ~ 1.6 です。重みが低すぎると無視される可能性があり、高すぎるとモデルの過学習や画像の歪みが生じる場合があります。また、丸括弧()を重ねることで重みをさらに増加させることもできます。各追加ペアごとに重みが 1.1 倍されます。例:(((cute)))。 -
重み計算式:
(PromptA:weight):プロンプトの重みを増減します。1 より大きい値は重みを増加させ、1 より小さい値は重みを減少させます。(PromptB):重みを 1.1 倍します((PromptB:1.1)と同等)。{PromptC}:重みを 1.05 倍します((PromptC:1.05)と同等)。[PromptD]:重みを 0.952 倍します((PromptD:0.952)と同等)。((PromptE))は(PromptE:1.1*1.1)と同等です。{{PromptF}}は(PromptF:1.05*1.05)と同等です。[[PromptG]]は(PromptG:0.952*0.952)と同等です。 -
山括弧
<>を使用して LoRA およびハイパーネットワークモデルを呼び出します。<lora:filename:multiplier>および<hypernet:filename:multiplier>の形式を使用します。 -
プロンプトスケジューリング:
形式は
[promptA:promptB:factor]で、factor(0 ~ 1 の値)は、モデルがpromptAからpromptBに切り替わるサンプリングステップ総数の割合を指定します。たとえば、同じシード値を使用して、プロンプトa girl holding an [apple:peach:0.9]とa girl holding an [apple:peach:0.2]を比較することで、factorを調整して画像内の特定の要素を微調整しながら高い類似性を維持できます。factor=0.9の場合、生成された画像は赤いリンゴを持った少女を示します。「peach」への切り替えがプロセスの後半で行われるため、「apple」の特徴が支配的になります。factor=0.2の場合、生成された画像はピンクの桃を持った少女を示します。「peach」への切り替えが早い段階で行われるため、「peach」の特徴がより顕著になります。 -
一般的なプロンプト用語
肯定的なプロンプト
否定的なプロンプト
プロンプト
説明
否定的なプロンプト
説明
HDR, UHD, 8K, 4K
画像品質を向上させます。
mutated hands and fingers
変異した手と指を防止します。
best quality
画像の詳細を豊かにします。
deformed
歪んだ形状を防止します。
masterpiece
画像に傑作のような品質を与えます。
bad anatomy
解剖学的な誤りを防止します。
highly detailed
細部を追加します。
disfigured
被写体のゆがみを防止します。
studio lighting
テクスチャを強調するスタジオライティングを追加します。
poorly drawn face
不自然な顔を防止します。
ultra-fine painting
超精細な絵画スタイルを作成します。
mutated
突然変異を防止します。
sharp focus
被写体を鮮明にフォーカスします。
extra limb
余分な四肢を防止します。
physically-based rendering
物理ベースレンダリング(PBR)を適用します。
ugly
不快な結果を防止します。
extreme detail description
極めて詳細な情報を追加します。
poorly drawn hands
不自然な手を防止します。
vivid colors
色の鮮やかさを強調します。
missing limb
四肢の欠損を防止します。
(EOS R8, 50mm, F1.2, 8K, RAW photo:1.2)
特定のカメラ設定で撮影されたプロフェッショナルな写真を再現します。
floating limbs
浮遊している四肢を防止します。
Bokeh
被写体を強調するために背景をぼかします。
disconnected limbs
四肢の分離を防止します。
sketch
スケッチスタイルを作成します。
malformed hands
奇形の手を防止します。
painting
絵画スタイルを作成します。
out of focus
ピンボケを防止します。
-
-
long neck
長い首を防止します。
-
-
long body
本文が長くなるのを防止します。
例
-
シンプルなプロンプト:対応するテキストボックスに肯定的および否定的なプロンプトを入力します。プロンプト用語を多く提供するほど、生成される画像はより正確になります。
WebUI では、肯定的および否定的なプロンプトのテキストボックスがインターフェイスの上部にあり、右側に Generate ボタンがあります。両方のテキストボックスはデフォルトで空です。
たとえば、「cat」というシンプルなプロンプトを入力して Generate をクリックすると、猫の画像が作成されます。この例では、サンプリングメソッドに Euler a、サンプリングステップ数に 20、画像サイズに 512×512、CFG Scale に 7 を使用しています。
-
複雑なプロンプト:
-
ポジティブプロンプト: 茶色い髪の美しいサイボーグの 8k ポートレート、複雑で、エレガントで、非常に詳細で、荘厳な、デジタル写真、artgerm と ruan jia と greg rutkowski によるアート、シュールな絵画、金色の蝶、フィリグリー、割れたガラス、(傑作、サイドライティング、繊細に描写された美しい目: 1.2)、HDR
-
否定的なプロンプト: canvas frame, cartoon, 3d, ((disfigured)), ((bad art)), ((deformed)),((extra limbs)),((close up)),((b&w)), weird colors, blurry, (((duplicate))), ((morbid)), ((mutilated)), [out of frame], extra fingers, mutated hands, ((poorly drawn hands)), ((poorly drawn face)), (((mutation))), (((deformed))), ((ugly)), blurry, ((bad anatomy)), (((bad proportions))), ((extra limbs)), cloned face, (((disfigured))), out of frame, ugly, extra limbs, (bad anatomy), gross proportions, (malformed limbs), ((missing arms)), ((missing legs)), (((extra arms))), (((extra legs))), mutated hands, (fused fingers), (too many fingers), (((long neck))), Photoshop, video game, ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, 3d render
-
プロンプトソース:Civitai を参照してください。
説明リンクにアクセスできない場合は、プロキシを設定する必要があります。
-
プロンプト内で先に記述されたキーワードほど重みが大きくなります。 必要に応じてキーワードを並べ替えてください。たとえば、主題、メディア、スタイル、アーティスト、ウェブサイト、解像度、追加の詳細、色、ライティングなどの順序で記述できます。これらのカテゴリすべてのキーワードを含める必要はありません。 望ましい結果を得るために、キーワードを選択して順序を調整してください。また、一部の事前学習済みモデルには隠し設定があり、特定のスタイルを自動的に適用したり、プロンプトの一部を無視したりする場合があります。
上記の肯定的および否定的なプロンプトを使用すると、金色のヘッドドレスと蝶の装飾を施した女性の 8K ポートレートが生成され、高精細かつ HDR 効果が適用されます。
-
パラメーター
-
① サンプリングメソッド(sampler)
これは、拡散ノイズ除去プロセスのサンプリングアルゴリズムを指定します。異なるサンプリング方法では、異なる効果が得られます。ニーズに応じてサンプリング方法を選択してください。Euler a(一般的に使用)、DPM++ 2S a、およびDPM++ 2S a Karrasでは、全体的なイメージの構成は類似しています。Euler、DPM++ 2m、およびDPM++ 2M Karrasでも構成は類似しています。DDIMの構成スタイルは大きく異なります。

-
② サンプリングステップ数(steps)
これは画像品質の重要な要素です。各ステップで AI が現在の画像とプロンプトを比較し、微調整を行います。ステップ数を増やすと時間とリソースの消費が増えますが、必ずしも画像品質が向上するとは限りません。
実際には、ステップ数を増やすことで通常は詳細が増加しますが、その効果はサンプリングメソッドに依存します。たとえば、Euler a サンプラーの場合、30 ~ 40 ステップを超えると詳細が安定し、それ以上のステップ数では改善が見られません。


-
③ Hires. fix
このオプションは画像解像度に影響します。2 段階のプロセスで画像を生成します。まず小さい解像度で画像を作成し、その後アップスケールして混合ストリームを変更せずに詳細を向上させます。このオプションを選択する場合は、Hires steps や denoising strength などのパラメーターを設定する必要があります。
高解像度修正方法の詳細については、「PAI ArtLab における高解像度修正の 3 つの方法」をご参照ください。
-
④ Width および Height:画像の幅と高さ(ピクセル単位)。値を高くすると VRAM を大量に消費します。解像度を高くすると詳細が増しますが、あまりにも高く設定することは推奨されません。ほとんどのケースでは、デフォルト値の 512x512 で十分です。
-
⑤ Batch count
異なるバッチで生成された画像は詳細が異なる場合があります。値を大きくすると計算時間が増加します。
-
⑥ Batch size
1 回のバッチで生成する画像の数です。このパラメーターは VRAM を大量に消費します。
batch size を 1 に設定すると、一度に 1 枚の画像が生成されます。
batch size を 4 に設定すると、4 枚の画像が同時に生成され、2×2 のグリッドで配置されます。
-
⑦ CFG Scale
値が大きいほど、生成された画像はプロンプトに忠実になります。値が小さいほど、AI に創造的な自由が与えられます。
-
⑧ Seed
-1 を設定すると、毎回ランダムに生成されます。他の任意の数値(負の数値や小数を含む)を設定すると、シード、パラメーター、モデル、GPU が同じであれば同じ画像を再現できます。
-
⑨ プロンプトまたは最後に生成された画像から生成パラメーターを読み込みます。
-
⑩ プロンプトの内容をクリアします。
Img2img
img2img 機能は、テキストプロンプトに基づいて画像を変換します。たとえば、実在の人物の写真をアニメキャラクターに変換したり、線画に色を付けたりできます。この機能はパラメーター調整とインペインティングをサポートしており、特定の領域を修正または再描画できます。
生成された画像は繰り返し編集したり、他の機能で使用したりできます。逆プロンプト用の 2 つの AI モデル(CLIP(写実的スタイル向け)および DeepBooru(アニメスタイル向け))を使用して、入力画像から自動的にキーワードを生成できます。
Img2img
スケッチ
Inpainting
Inpaint sketch
Inpaint upload
バッチ処理
以下のセクションでは、パラメーターについて説明します。
Img2img および sketch パラメーター
Inpainting パラメーター
Inpaint sketch パラメーター
画像情報
Stable Diffusion で生成された画像をアップロードして、その作成パラメーターを確認します。
Image information ページでは、アップロードされた AI 生成画像が左側に表示され、右側に完全な生成パラメーターが表示されます。これには、肯定的なプロンプト、否定的なプロンプト、サンプリングメソッド(Euler a)、サンプリングステップ数(20)、CFG Scale(7)、シード値、モデル名が含まれます。パラメーターの下には、Send to txt2img などのショートカットボタンがあります。
スクリーンショットや他のアプリケーションで再保存された画像は生成データを失っており、この機能で読み取ることはできません。
このような画像をアップロードすると、生成データを解析できないため、パラメーターエリアは空白になります。
ControlNet プラグイン
TheMisto.ai の MistoLine-SDXL-ControlNet プラグインは、このプロダクトに含まれる Stable Diffusion WebUI および ComfyUI バージョンで動作します。
パラメーター
|
パラメーター |
説明 |
|
Enable |
このオプションを選択して ControlNet を有効にします。 |
|
Low VRAM |
ビデオメモリが 4 GB 未満の場合は、このオプションを選択します。 |
|
Preprocessor |
特定の効果を実現するために、各プリプロセッサを対応するモデルとペアにします。 |
|
Model |
対応するプリプロセッサと組み合わせて使用します。モデルをダウンロードして、指定された OSS ディレクトリにアップロードする必要があります。 |
|
Control weight |
ControlNet が最終画像に与える影響を決定します。img2img タスクでは、低い denoising strength と高い control weight を組み合わせることで、画像の詳細を保持しながらスタイルやフィルターを変更できます。逆に、高い denoising strength と低い control weight では、画像の詳細が変更されます。 |
|
Starting control step |
ControlNet が生成プロセスに影響を及ぼし始めるタイミングを、サンプリングステップ総数のパーセンテージで指定します。値の範囲は 0 ~ 1 です。0 を設定すると最初のステップから ControlNet がアクティブになり、1 を設定すると最終ステップにのみ適用されます。値を高くすると、ControlNet の全体的な影響が小さくなります。 たとえば、サンプリングステップ数が 20 で、このパラメーターが 0.3 に設定されている場合、ControlNet はステップ 6(20 × 0.3)からアクティブになります。 |
|
Ending control step |
ControlNet が生成プロセスへの影響を停止するタイミングを、サンプリングステップ総数のパーセンテージで指定します。値の範囲は 0 ~ 1 です。 |
|
Control type |
|


























