Stable Diffusion Web UI の使用方法 - Platform For AI - Alibaba Cloud ドキュメントセンター

このトピックでは、Platform for AI (PAI) ArtLab の Stable Diffusion モデルを使用して画像を生成するための Stable Diffusion Web UI の使用方法について説明します。

PAI ArtLab コンソールにログインします。

背景情報

Stable Diffusion は Stability AI が開発した Text-to-Image AI モデルで、テキストプロンプトに基づいて画像を生成および編集できます。AUTOMATIC1111 が開発した Stable Diffusion Web UI は、ブラウザベースのインターフェイスです。直感的な操作により、プログラミング知識がなくてもモデルの機能を簡単に利用できます。

さまざまなプラグインやモデルを読み込むことで Web UI をカスタマイズし、より制御可能な画像を作成できます。

モデル選択

Object Storage Service (OSS) の対応ディレクトリにモデルをアップロードし、Web UI を再読み込みしてモデル一覧を更新します。Civitai からモデルをダウンロードすることを推奨します。

説明

上記リンクにアクセスできない場合は、プロキシを設定してから再度お試しください。

モデルのドロップダウンリストから、3Guofeng3_v32Light や deliberate_v2、sd_xl_base_1.0 などのモデルを選択します。右側の更新ボタンをクリックしてモデル一覧を再読み込みします。

Txt2img

一般的なプロンプト構造

一般的なプロンプト構造は次のとおりです：接頭辞（品質、スタイル、カメラ効果、ライティング効果）＋主題（キャラクター＆オブジェクト、ポーズ、衣装、小物）＋シーン（環境、詳細）。

半角丸括弧 () を使用して語句の重みを増加させます。強調したい語句を丸括弧で囲み、コロンの後に重み値を追加します。例：(beautiful:1.3)。推奨される重みの範囲は 0.4 ～ 1.6 です。重みが低すぎると無視される可能性があり、高すぎるとモデルの過学習や画像の歪みが生じる場合があります。また、丸括弧 () を重ねることで重みをさらに増加させることもできます。各追加ペアごとに重みが 1.1 倍されます。例：(((cute)))。
重み計算式：

(PromptA:weight)：プロンプトの重みを増減します。1 より大きい値は重みを増加させ、1 より小さい値は重みを減少させます。(PromptB)：重みを 1.1 倍します（(PromptB:1.1) と同等）。{PromptC}：重みを 1.05 倍します（(PromptC:1.05) と同等）。[PromptD]：重みを 0.952 倍します（(PromptD:0.952) と同等）。((PromptE)) は (PromptE:1.1*1.1) と同等です。{{PromptF}} は (PromptF:1.05*1.05) と同等です。[[PromptG]] は (PromptG:0.952*0.952) と同等です。
山括弧 <> を使用して LoRA およびハイパーネットワークモデルを呼び出します。<lora:filename:multiplier> および <hypernet:filename:multiplier> の形式を使用します。
プロンプトスケジューリング：

形式は [promptA:promptB:factor] で、factor（0 ～ 1 の値）は、モデルが promptA から promptB に切り替わるサンプリングステップ総数の割合を指定します。たとえば、同じシード値を使用して、プロンプト a girl holding an [apple:peach:0.9] と a girl holding an [apple:peach:0.2] を比較することで、factor を調整して画像内の特定の要素を微調整しながら高い類似性を維持できます。

factor=0.9 の場合、生成された画像は赤いリンゴを持った少女を示します。「peach」への切り替えがプロセスの後半で行われるため、「apple」の特徴が支配的になります。

factor=0.2 の場合、生成された画像はピンクの桃を持った少女を示します。「peach」への切り替えが早い段階で行われるため、「peach」の特徴がより顕著になります。

一般的なプロンプト用語

肯定的なプロンプト		否定的なプロンプト
プロンプト	説明	否定的なプロンプト	説明
HDR, UHD, 8K, 4K	画像品質を向上させます。	mutated hands and fingers	変異した手と指を防止します。
best quality	画像の詳細を豊かにします。	deformed	歪んだ形状を防止します。
masterpiece	画像に傑作のような品質を与えます。	bad anatomy	解剖学的な誤りを防止します。
highly detailed	細部を追加します。	disfigured	被写体のゆがみを防止します。
studio lighting	テクスチャを強調するスタジオライティングを追加します。	poorly drawn face	不自然な顔を防止します。
ultra-fine painting	超精細な絵画スタイルを作成します。	mutated	突然変異を防止します。
sharp focus	被写体を鮮明にフォーカスします。	extra limb	余分な四肢を防止します。
physically-based rendering	物理ベースレンダリング（PBR）を適用します。	ugly	不快な結果を防止します。
extreme detail description	極めて詳細な情報を追加します。	poorly drawn hands	不自然な手を防止します。
vivid colors	色の鮮やかさを強調します。	missing limb	四肢の欠損を防止します。
(EOS R8, 50mm, F1.2, 8K, RAW photo:1.2)	特定のカメラ設定で撮影されたプロフェッショナルな写真を再現します。	floating limbs	浮遊している四肢を防止します。
Bokeh	被写体を強調するために背景をぼかします。	disconnected limbs	四肢の分離を防止します。
sketch	スケッチスタイルを作成します。	malformed hands	奇形の手を防止します。
painting	絵画スタイルを作成します。	out of focus	ピンボケを防止します。
-	-	long neck	長い首を防止します。
-	-	long body	本文が長くなるのを防止します。

例

シンプルなプロンプト：対応するテキストボックスに肯定的および否定的なプロンプトを入力します。プロンプト用語を多く提供するほど、生成される画像はより正確になります。

WebUI では、肯定的および否定的なプロンプトのテキストボックスがインターフェイスの上部にあり、右側に Generate ボタンがあります。両方のテキストボックスはデフォルトで空です。

たとえば、「cat」というシンプルなプロンプトを入力して Generate をクリックすると、猫の画像が作成されます。この例では、サンプリングメソッドに Euler a、サンプリングステップ数に 20、画像サイズに 512×512、CFG Scale に 7 を使用しています。
複雑なプロンプト：
- ポジティブプロンプト: 茶色い髪の美しいサイボーグの 8k ポートレート、複雑で、エレガントで、非常に詳細で、荘厳な、デジタル写真、artgerm と ruan jia と greg rutkowski によるアート、シュールな絵画、金色の蝶、フィリグリー、割れたガラス、（傑作、サイドライティング、繊細に描写された美しい目: 1.2）、HDR
- 否定的なプロンプト： canvas frame, cartoon, 3d, ((disfigured)), ((bad art)), ((deformed)),((extra limbs)),((close up)),((b&w)), weird colors, blurry, (((duplicate))), ((morbid)), ((mutilated)), [out of frame], extra fingers, mutated hands, ((poorly drawn hands)), ((poorly drawn face)), (((mutation))), (((deformed))), ((ugly)), blurry, ((bad anatomy)), (((bad proportions))), ((extra limbs)), cloned face, (((disfigured))), out of frame, ugly, extra limbs, (bad anatomy), gross proportions, (malformed limbs), ((missing arms)), ((missing legs)), (((extra arms))), (((extra legs))), mutated hands, (fused fingers), (too many fingers), (((long neck))), Photoshop, video game, ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, 3d render
- プロンプトソース：Civitai を参照してください。
  
  説明
  リンクにアクセスできない場合は、プロキシを設定する必要があります。
- プロンプト内で先に記述されたキーワードほど重みが大きくなります。 必要に応じてキーワードを並べ替えてください。たとえば、主題、メディア、スタイル、アーティスト、ウェブサイト、解像度、追加の詳細、色、ライティングなどの順序で記述できます。これらのカテゴリすべてのキーワードを含める必要はありません。 望ましい結果を得るために、キーワードを選択して順序を調整してください。また、一部の事前学習済みモデルには隠し設定があり、特定のスタイルを自動的に適用したり、プロンプトの一部を無視したりする場合があります。
  
  上記の肯定的および否定的なプロンプトを使用すると、金色のヘッドドレスと蝶の装飾を施した女性の 8K ポートレートが生成され、高精細かつ HDR 効果が適用されます。

パラメーター

① サンプリングメソッド（sampler）

これは、拡散ノイズ除去プロセスのサンプリングアルゴリズムを指定します。異なるサンプリング方法では、異なる効果が得られます。ニーズに応じてサンプリング方法を選択してください。Euler a（一般的に使用）、DPM++ 2S a、およびDPM++ 2S a Karrasでは、全体的なイメージの構成は類似しています。Euler、DPM++ 2m、およびDPM++ 2M Karrasでも構成は類似しています。DDIMの構成スタイルは大きく異なります。
② サンプリングステップ数（steps）

これは画像品質の重要な要素です。各ステップで AI が現在の画像とプロンプトを比較し、微調整を行います。ステップ数を増やすと時間とリソースの消費が増えますが、必ずしも画像品質が向上するとは限りません。

実際には、ステップ数を増やすことで通常は詳細が増加しますが、その効果はサンプリングメソッドに依存します。たとえば、Euler a サンプラーの場合、30 ～ 40 ステップを超えると詳細が安定し、それ以上のステップ数では改善が見られません。
③ Hires. fix

このオプションは画像解像度に影響します。2 段階のプロセスで画像を生成します。まず小さい解像度で画像を作成し、その後アップスケールして混合ストリームを変更せずに詳細を向上させます。このオプションを選択する場合は、Hires steps や denoising strength などのパラメーターを設定する必要があります。

高解像度修正方法の詳細については、「PAI ArtLab における高解像度修正の 3 つの方法」をご参照ください。
④ Width および Height：画像の幅と高さ（ピクセル単位）。値を高くすると VRAM を大量に消費します。解像度を高くすると詳細が増しますが、あまりにも高く設定することは推奨されません。ほとんどのケースでは、デフォルト値の 512x512 で十分です。
⑤ Batch count

異なるバッチで生成された画像は詳細が異なる場合があります。値を大きくすると計算時間が増加します。
⑥ Batch size

1 回のバッチで生成する画像の数です。このパラメーターは VRAM を大量に消費します。

batch size を 1 に設定すると、一度に 1 枚の画像が生成されます。

batch size を 4 に設定すると、4 枚の画像が同時に生成され、2×2 のグリッドで配置されます。
⑦ CFG Scale

値が大きいほど、生成された画像はプロンプトに忠実になります。値が小さいほど、AI に創造的な自由が与えられます。
⑧ Seed

-1 を設定すると、毎回ランダムに生成されます。他の任意の数値（負の数値や小数を含む）を設定すると、シード、パラメーター、モデル、GPU が同じであれば同じ画像を再現できます。
⑨ プロンプトまたは最後に生成された画像から生成パラメーターを読み込みます。
⑩ プロンプトの内容をクリアします。

Img2img

img2img 機能は、テキストプロンプトに基づいて画像を変換します。たとえば、実在の人物の写真をアニメキャラクターに変換したり、線画に色を付けたりできます。この機能はパラメーター調整とインペインティングをサポートしており、特定の領域を修正または再描画できます。

生成された画像は繰り返し編集したり、他の機能で使用したりできます。逆プロンプト用の 2 つの AI モデル（CLIP（写実的スタイル向け）および DeepBooru（アニメスタイル向け））を使用して、入力画像から自動的にキーワードを生成できます。

Img2img

画像をアップロードします。縦横比はターゲットの幅と高さと一致している必要があります。たとえば、512×512 の画像は 1:1 の縦横比である必要があります。

CLIP/DeepBooru を使用して逆プロンプトを実行するか、独自の肯定的および否定的なプロンプトを手動で入力してから、Generate をクリックします。アップロードされた画像に基づいて新しい画像が生成されます。

生成されたイメージ（右）は、元のイメージ（左）の構図と特徴を保持しながら、新しい詳細を追加しています。

スケッチ

通常の画像をアップロード

アップロードされた画像に描き加えて、プロンプトの一部を修正します。新しく生成された画像には、スケッチされた要素が組み込まれます。

左の画像は、紫色の蝶をスケッチした元の画像です。右の画像は、スケッチされた蝶がシーンに自然に統合された生成結果です。

線画の下書きをアップロード

自分で色を付けて、プロンプトを使用して異なるスタイルの画像を生成できます。

左の画像は、色ブロック付きのラフな線画の下書きです。右の画像は、線画とプロンプトに基づいて AI が生成した完全に彩色されたアニメキャラクターです。

スケッチ機能により、制作が高速化され、創造性が高まります。高度なイラストスキルがなくても、アイデアを高品質なビジュアルに変換できます。

Inpainting

修正したい画像の部分を塗りつぶしてマスクを作成します。その後、マスクされた領域またはマスクされていない領域のいずれかをインペイントできます。

Inpaint masked

プロンプトに変更したい内容を追加して、Generate をクリックします。たとえば、元のプロンプトに「wears sweater」を追加します。

左の画像は、キャラクターの衣装にマスクをかけた元の画像です。右の画像は、インペインティング後の結果で、マスクされた領域の衣装がセーターに置き換えられています。
Inpaint not masked

プロンプトに変更したい内容を追加して、Generate をクリックします。たとえば、元のプロンプトに「classroom」を追加します。

左の画像は、キャラクターにマスクをかけた元の画像です。右の画像は、インペインティング後の結果で、マスクされていない背景が教室のシーンに変更されています。

Inpaint sketch

この機能はインペインティングを拡張し、カラーパレットを追加することで、生成プロセスがスケッチで使用された色を参照できるようにします。

左の画像は、カラーパレットを使用して青い落書きを追加した元の画像です。右の画像は、スケッチの色が自然に画像に組み込まれた生成結果です。

Inpaint upload

Photoshop などの外部ツールで作成したマスクをアップロードしてマスキング操作を行います。マスク領域に対して高い精度が必要なユーザーに適しています。この機能を使用するには、事前に作成したマスクファイルをマスクアップロードエリアにアップロードします。

インターフェイスの上部は元の画像表示エリアで、下部はマスクアップロードエリアです。Drag and drop an image here または Click to upload というプロンプトが表示され、その横に Mask ボタンがあります。

バッチ処理

この機能は、指定されたディレクトリ内の画像に対してバッチ img2img 処理を実行します。input directory、output directory、mask directory の 3 つのフォルダを作成する必要があります。

修正したい画像を input directory に配置します。AI によって生成された画像は output directory に保存されます。
インペインティングにマスクを使用する必要がある場合は、mask directory のパスを設定します。設定しない場合、画像全体が再描画されます。
元の画像とマスクを同じ名前にすることで対応付けられます。たとえば、元の画像の名前が ali_sd.png の場合、対応するマスクも ali_sd.png という名前にする必要があります。
元の画像に対応するマスクがない場合、マスクディレクトリ内の最初の画像がインペインティングに使用されます。そのため、最初のマスクを白塗りの画像にして、画像全体の再描画を実行できます。画像全体の再描画が不要な場合は、最も頻繁に使用するマスクをフォルダ内の最初の画像として配置してください。

バッチ処理インターフェイスには、3 つのディレクトリ入力フィールドがあります。Input directory（元の画像用）、Output directory（生成結果用）、および Inpaint batch mask directory（マスクファイル用）です。

以下のセクションでは、パラメーターについて説明します。

Img2img および sketch パラメーター

Interrogate CLIP および Interrogate DeepBooru
- アップロードされた画像からプロンプトを逆エンジニアリングします。
- CLIP は、人間が話すような自然言語で説明を提供します。
- DeepBooru は、「beautiful woman, river, afternoon...」のようなタグを使用します。
- CLIP と比較して、DeepBooru の説明は通常より詳細です。
Resize mode：入力画像を出力寸法に合わせてサイズ変更する方法を決定します。

Just resize：単純に画像をスケーリングします。結果として画像が引き伸ばされたり圧縮されたりし、詳細の損失や歪みが生じる可能性があります。
Crop and resize：入力画像をターゲットの縦横比にクロップしてからサイズ変更します。これにより歪みを防げますが、元の画像の一部が削除される可能性があります。

Resize and fill：画像をサイズ変更してから余剰スペースを塗りつぶします。色またはパターンで塗りつぶせます。この方法では元の縦横比と詳細が保持されますが、塗りつぶされたコンテンツが視覚的な結果に影響を与える可能性があります。

outpainting mk2 スクリプトを使用できます。必要に応じて denoising strength を調整してください。

Outpainting mk2 スクリプトのパラメーターには、Pixels to expand（128 に設定）、Mask blur（23 に設定）、Outpainting direction（上、下、左、または右）、Fall-off exponent（0.73 に設定）、および Color variation（0.04 に設定）が含まれます。

Just resize (latent upscale)：このモードでは順伝播中にのみサイズ変更を行います。入力をダウンスケーリングすることが有利なため、このモードは高速で安定していますが、元の画像の詳細を正確に復元できません。

Denoising strength：元の画像がどの程度変更されるかを制御します。値が大きいほど元の画像と大きく異なる画像が生成され、値が小さいほど元の詳細が多く保持されます。

次の画像は、元の画像に対して denoising strength を調整した結果を示しています。

Inpainting パラメーター

Mask blur

マスクブラーは、マスク領域周辺のピクセルをぼかしてエッジのアーティファクトを軽減し、より自然なトランジションを作成する画像処理技術です。値を高くすると、より柔らかくフェザーのかかったエッジになります。

次の例は、マスクブラー値が 0、20、40、60 の場合の比較を示しています。
Mask mode

Mask mode には 2 つのオプションがあります。Inpaint masked（マスクで覆われた領域のみを再描画）および Inpaint not masked（マスク外の領域のみを再描画）です。
Masked content

Fill：マスク領域を塗りつぶします。これは通常、画像から不要なコンテンツを削除するために使用されます。（この例では、元の画像からいくつかの木の幹が削除されています。）

左の画像は、木の幹にマスクをかけた元の画像です。右の画像は、塗りつぶし処理後の結果で、マスク領域の木の幹が自然に埋められています。
Original：元の画像のコンテンツをインペインティングの開始点として使用します。これは通常、傷、ひび割れ、汚れなどの欠陥を修正するために使用されます。（この例では、木の幹が花に置き換えられています。）

左の画像は、同じマスクをかけた元の画像です。右の画像は、original モードでの処理後の結果で、マスク領域の木の幹が花に置き換えられています。
Latent noise：ノイズ除去前にマスク領域をランダムノイズで塗りつぶします。これにより、マスク内にまったく新しいコンテンツが生成され、創造的な効果に役立ちます。
- 低い denoising strength。
左の画像は、マスクをかけた元の画像です。右の画像は、低い denoising strength での結果で、マスク領域は元の詳細を多く保持しつつ、わずかなノイズ効果が見られます。
- 高い denoising strength：
  
  左の画像は、同じマスクをかけた元の画像です。右の画像は、高い denoising strength での結果で、マスク領域が大幅に変化し、元と大きく異なる新しいコンテンツが生成されています。
Latent nothing：マスク領域を潜在空間で null 値で塗りつぶします。これは新しいコンテンツを生成するための高度なオプションで、通常は高い denoising strength を必要とします。
- 低い denoising strength：
  
  左の画像は、マスクをかけた元の画像です。右の画像は、低い denoising strength での結果で、マスク領域はほとんど変化せず、元の状態に近いままです。
- 高い denoising strength：
  
  左の画像は、同じマスクをかけた元の画像です。右の画像は、高い denoising strength での結果で、マスク領域が元とは異なる新しい要素で再生成されています。
Whole picture（fill モードおよび original モードにおける denoising strength 0 と 0.6 の比較）
- Fill
  - Denoising strength 0
    
    左の画像は、顔にマスクをかけた元の画像です。右の画像は、denoising strength 0 での結果です。顔の領域はぼかされており、詳細が判別できません。
  - Denoising strength 0.6
    
    左の画像は、同じマスクをかけた元の画像です。右の画像は、denoising strength 0.6 での結果で、マスク領域に新しい顔の特徴が生成されています。
- Original
  - Denoising strength 0
    
    左の画像は、顔にマスクをかけた元の画像です。右の画像は、denoising strength 0 での結果です。顔は滑らかですが、大幅に再描画されていません。
  - Denoising strength 0.6
    
    左の画像は、同じマスクをかけた元の画像です。右の画像は、denoising strength 0.6 での結果で、新しい顔の特徴が生成されています。
Only masked（fill モードおよび original モードにおける denoising strength 0 と 0.6 の比較）
- Fill
  - Denoising strength 0
    
    左の画像は、顔にマスクをかけた元の画像です。右の画像は、denoising strength 0 での結果で、顔の領域は元の状態のままです。
  - Denoising strength 0.6
    
    左の画像は、同じマスクをかけた元の画像です。右の画像は、denoising strength 0.6 での結果で、マスク領域に新しい顔の特徴が生成されています。
- Original
  - Denoising strength 0
    
    左の画像は、顔にマスクをかけた元の画像です。右の画像は、denoising strength 0 での結果で、顔の領域は元の状態のままです。
  - Denoising strength 0.6
    
    左の画像は、同じマスクをかけた元の画像です。右の画像は、denoising strength 0.6 での結果で、マスク領域に新しい顔の特徴が生成されています。
Only masked padding, pixels：このパラメーターは Only masked が選択されている場合にのみ調整可能で、Whole picture 設定には影響しません。顔の修復では、original モードの方が安定しており、latent noise はより芸術的な効果を生み出すことができます。

Inpaint sketch パラメーター

Mask transparency

次の例は、マスク透明度の値が 0、30、60、90 の場合の比較を示しています。範囲は 0 ～ 100 です。値を高くすると、マスクの輪郭がより目立つようになり、インペインティングの強度にも影響します。

画像情報

Stable Diffusion で生成された画像をアップロードして、その作成パラメーターを確認します。

Image information ページでは、アップロードされた AI 生成画像が左側に表示され、右側に完全な生成パラメーターが表示されます。これには、肯定的なプロンプト、否定的なプロンプト、サンプリングメソッド（Euler a）、サンプリングステップ数（20）、CFG Scale（7）、シード値、モデル名が含まれます。パラメーターの下には、Send to txt2img などのショートカットボタンがあります。

スクリーンショットや他のアプリケーションで再保存された画像は生成データを失っており、この機能で読み取ることはできません。

このような画像をアップロードすると、生成データを解析できないため、パラメーターエリアは空白になります。

ControlNet プラグイン

説明

TheMisto.ai の MistoLine-SDXL-ControlNet プラグインは、このプロダクトに含まれる Stable Diffusion WebUI および ComfyUI バージョンで動作します。

パラメーター

パラメーター	説明
Enable	このオプションを選択して ControlNet を有効にします。
Low VRAM	ビデオメモリが 4 GB 未満の場合は、このオプションを選択します。
Preprocessor	特定の効果を実現するために、各プリプロセッサを対応するモデルとペアにします。
Model	対応するプリプロセッサと組み合わせて使用します。モデルをダウンロードして、指定された OSS ディレクトリにアップロードする必要があります。
Control weight	ControlNet が最終画像に与える影響を決定します。img2img タスクでは、低い denoising strength と高い control weight を組み合わせることで、画像の詳細を保持しながらスタイルやフィルターを変更できます。逆に、高い denoising strength と低い control weight では、画像の詳細が変更されます。
Starting control step	ControlNet が生成プロセスに影響を及ぼし始めるタイミングを、サンプリングステップ総数のパーセンテージで指定します。値の範囲は 0 ～ 1 です。0 を設定すると最初のステップから ControlNet がアクティブになり、1 を設定すると最終ステップにのみ適用されます。値を高くすると、ControlNet の全体的な影響が小さくなります。たとえば、サンプリングステップ数が 20 で、このパラメーターが 0.3 に設定されている場合、ControlNet はステップ 6（20 × 0.3）からアクティブになります。
Ending control step	ControlNet が生成プロセスへの影響を停止するタイミングを、サンプリングステップ総数のパーセンテージで指定します。値の範囲は 0 ～ 1 です。
Control type	Canny：入力画像からエッジを抽出し、線画のような出力を生成します。輪郭、ポーズ、衣装のしわ、表情を検出します。出力は構造的に硬直的で、バックグラウンドの影響を受けることがあります。複雑なバックグラウンドを持つ画像や、被写体とバックグラウンドが大きく重複する画像には適していません。通常は control_sd15_canny モデルと組み合わせて使用します。 Depth：入力画像から深度マップを生成して、オブジェクトの空間配置を制御します。明るい領域は視聴者に近いオブジェクトを表し、暗い領域は遠くにあるオブジェクトを表します。ただし、大きな画像では顔の表情などの細部を処理するのが難しい場合があります。通常は control_sd15_depth モデルと組み合わせて使用します。 Normal map：画像から法線マップを生成します（3D モデリングソフトウェアからのものではありません）。赤、緑、青のチャンネルを使用して表面の角度を定義し、オブジェクトの粗さや滑らかさを高精度でキャプチャします。この方法は重要な詳細を保持し、複雑な輪郭や空間関係を処理するのに効果的で、キャラクターモデリングに適しています。通常は control_sd15_normal モデルと組み合わせて使用します。 OpenPose：人間のポーズを検出して、キーポイントを持つ基本的なスケルトンを生成します。これにより、安定したポーズと一貫性のある被写体を持つ画像を生成できます。通常は control_sd15_openpose モデルと組み合わせて使用します。 MLSD：直線と硬い輪郭を検出し、建築物の被写体に最適です。有機的または曲線的な形状には適していません。通常は control_sd15_mlsd モデルと組み合わせて使用します。 Scribble/Sketch：シンプルな白黒の線画またはスケッチから画像を生成します。スケッチを直接アップロードすることもできます。入力画像が白地に黒い線の場合、「Invert Input Color」オプションを選択します。通常は control_sd15_scribble モデルと組み合わせて使用します。 Semantic segmentation：セマンティックセグメンテーションを実行し、入力画像をオブジェクトタイプに基づいて領域に分割します。これにより、PAI-ArtLab がオブジェクトを認識して適切に処理できます。通常は control_sd15_seg モデルと組み合わせて使用します。

ControlNet のユースケース

三面図キャラクター

推奨モデル：checkpoint、LoRA
プロンプト設定
- ポジティブプロンプト: JinxLol、成熟した女性、1人の女性、単独、視聴者を見ている、へそ、手袋、指なし手袋、キャラクター名、腹部、肩出し、視聴者を見ている、銃、クロップトップ、ベルト、屋外
- 否定的なプロンプト：(low quality, worst quality:1.3), (lowres), blurry,text,watermark,signature,artist name,letterboxed, female pubic hair,realism
パラメーター設定

sampling method を DPM++2M Karras に設定します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
ControlNet パラメーター

キャラクターの異なるビューを示す線画画像をアップロードします。control type を Canny に設定します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
結果

屋外建築物

推奨モデル：checkpoint、LoRA
プロンプト設定
- 肯定的なプロンプト：XSWB,architecture,autumn,bench, blue_sky, building,cloudy_sky, day, fence,forest, garden, grass, house, mountain, nature, no_humans, outdoors, palm_tree, path, pavement, plant, road, scenery, sky,tree, water,wooden_fence,triangular top,masterpiece,ultra-fine painting,sharp focus,HDR,UHD,8K,4K <lora:xsarchitectural3aerial_xsarchitectural3:0.9>
- 否定的なプロンプト：soft line,Distorted, fuzzy
パラメーター設定

sampling method を Euler a に設定します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
ControlNet パラメーター

建物の線画画像をアップロードします。control type を MLSD に設定します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
結果

インテリアデザイン

推奨モデル：

Base model v1-5-pruned-emaonly.safetensors、LoRA
プロンプト設定

肯定的なプロンプト：Interior advanced Design<lora:xsarchitectural9advanced_xsarchitectural:1>
パラメーター設定

sampling method を Euler a に設定します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
ControlNet パラメーター

家具のない部屋の画像をアップロードします。control type を MLSD に、batch size を 4 に設定して、一度に 4 枚の画像を生成します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
結果

アニメ風アバター

推奨モデル：checkpoint、LoRA

プロンプト設定
- 肯定的なプロンプト：best quality, masterpiece, (realistic:1.2), 1 girl, brown hair, brown eyes,Front, detailed face, beautiful eyes <lora:hanfu_v29 Lora:1>
- 否定的なプロンプト：(low quality, worst quality:1.4),nsfw
パラメーター設定

sampling method を Euler a に設定します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
ControlNet パラメーター

顔の画像をアップロードします。control type を Canny に設定します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
結果

衣装の変更

推奨モデル：Civitai のモデル
プロンプト設定
- ポジティブプロンプト: ヨーロッパ人女性のクローズアップ、赤毛、冬のフォレスト、ナチュラルなスキンテクスチャ、24mm、4K テクスチャ、柔らかなシネマティックライティング、RAW 写真、写実主義、写実的、精巧な、優雅な、高度に詳細な、シャープなフォーカス、((((シネマティックルック))))、癒しのトーン、狂気的なディテール、精巧なディテール、ハイパーディテール、ローコントラスト、柔らかなシネマティックライティング、くすんだ色調、露出ブレンド、HDR、フェード
- 否定的なプロンプト：(deformed, distorted, disfigured:1.3), poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation,nsfw
パラメーター設定

sampling method を Euler a に設定します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
ControlNet パラメーター

人物の画像をアップロードします。control type を OpenPose に設定します。他のパラメーターはデフォルト値を使用するか、必要に応じて調整してください。
結果

髪色の変更

プロンプト設定

black hair などの記述タグを追加します。
パラメーター設定

髪色を変更するには、img2img inpainting 機能を使用します。マスクを手動で描き、denoising strength を 0.6 に設定し、他のパラメーターはデフォルト値のままにします。
結果

背景のインペインティング

プロンプト設定

タグを追加し、丸括弧を使用して重みを増加させることができます。例：green trees,((beach)),((sea)),((blue sky)),black hair
パラメーター設定

マスクを手動で描き、マスク領域に基づいて mask mode や denoising strength などのパラメーターを調整します。
結果