- IP アダプタ/InstantID と LoRA は、ポーズ、光、背景の変化に応じて ID を確立するための最も強力な組み合わせです。
- ノイズ除去、CFG、シード制御は、ショット間の顔の一貫性を維持する上で大きな違いを生みます。
- 1 枚の写真でも有効ですが、10 ~ 30 枚の画像を含む LoRA を使用すると一貫性が大幅に向上します。
- /r/StableDiffusion および ComfyUI コミュニティは、SFW ルールとフレンドリーな対応の下でストリームとサポートを提供します。
¿Stable Diffusion + ComfyUI でリアルなアバターを作成する方法は? Stable Diffusion と ComfyUI を使用してリアルで一貫性のあるアバターを作成することは、ますます達成可能な目標になっていますが、ある程度の技術と適切な判断力が必要です。 重要なのは、背景、照明、表情を変えながら、アイデンティティ(顔の特徴、髪型、構造)を維持することです。これには、ワークフロー、特定のノード、場合によっては LoRA や埋め込みなどの補助モデルの組み合わせが必要になることがよくあります。
多くのユーザーが同じ問題に直面しています。参照画像を使用すると、1 回のショットでは良好な類似性が得られますが、次のショットでは髪型や目の色が変わります。 埋め込み(テキスト反転)、LoRA、ControlNet について聞いたことがあると思いますが、どのアプローチが自分に適しているのか疑問に思うのも当然です。さらに、IPアダプタやInstantIDといったオプションも登場し、顔の一貫性を向上させています。この記事では、よくある疑問、つまり単一の参照だけで十分か、LoRAを設定する方がよいのか埋め込みを使用する方がよいのか、そしてComfyUIで安定したアバターを実現するためにどのノード/構成が最も効果的か、といった疑問にお答えします。
アバターにおける一貫性とはどういう意味でしょうか?
一貫性について話すとき、それは複数の画像にわたってキャラクターが認識可能であることを意味します。 被写体の本質的な特徴(顔の形、目、鼻、唇、髪)と「感情」を維持することです。 ポーズや口の開き方、強い光や複雑な背景などを工夫しても同じです。
この一貫性は、生成プロセスにおいてアイデンティティを「固定」することから生まれます。 モデルが対象者が誰であるかに関する十分な信号を受け取らない場合、モデルは即興で行動したり、逸脱したりする傾向があります。そのため、類似性を強化するために、視覚的な参照、アイデンティティ モジュール、または小さなカスタム調整 (LoRA、埋め込み) を使用することは理にかなっています。
さらに、アイデンティティを壊さずに変更できる要素と変更できない要素を区別する必要があります。 背景、服装、表情、照明計画は安全な変数です目の形、虹彩の色、生え際、骨格などはそれほど重要ではありません。その境界線を微調整することが、作品の大きな部分を占めています。
ComfyUI の単一の画像でこれを実現することは可能ですか?
簡単に答えると、「はい、ニュアンスはありますが」です。 IP-Adapter (FaceID) や InstantID などの顔参照技術を使用し、ノイズ レベルを制御すれば、1 枚の写真で十分な場合があります。 img2img やコンディショニングの強さによって異なります。もちろん、写真は鮮明で、十分な明るさがあり、正面または横顔で、特徴がはっきりしている必要があります。
ComfyUI では、典型的なアプローチは、顔の参照ノードと明確に定義されたプロンプトおよび安定したサンプラーを組み合わせることです。 視覚的な条件付けはモデルに特徴を尊重するように「促し」、プロンプトはスタイル、背景、照明を指示する。多くのポーズのバリエーションが必要な場合は、ControlNet (OpenPose) を使用して、顔を歪ませることなくポーズをガイドします。
しかし、一枚の画像では限界があり、その写真の特定の表現や照明を「過剰学習」してしまう可能性があります。 最大限の忠実度と汎用性を求める場合は、6 ~ 20 枚の参照画像を使用すると一般化が向上します。また、必要に応じて、写真に合わせてトレーニングされた軽量の LoRA により、ショット間の一貫性が向上します。
埋め込み、LoRA、または微調整:選択方法
アイデンティティのカスタマイズには、埋め込み(テキスト反転)、LoRA、完全な微調整という 3 つの主な方法があります。 埋め込みにより、主題を表す新しいトークンが CLIP に教えられます。、MB は少なく、トレーニングは適度に高速ですが、LoRA と比較するとそのパワーは限られています。
一方、適切にトレーニングされた LoRA は、モデルのレイヤーに容量を注入して、特徴をより正確にキャプチャします。 10~30 枚のさまざまなポートレート(角度、表情、光)と適度なトレーニングにより、非常に高い一貫性を実現できます。 SD 1.5またはSDXLで、ファイルサイズを小さく(数十MB)保ちながら、高画質を実現しています。ほとんどの人にとって最適なサイズです。
チェックポイントの完全な微調整は、非常に特殊なプロダクションのために予約されています。 これはコストが高く、データ集約型であり、モデルの全体的なスタイルを上書きします。実際には、個人用アバターの場合、軽量の LoRA または優れた顔参照パイプラインで十分です。
ComfyUI の推奨ノードとブロック
一貫性のための典型的なグラフは、基本チェックポイント、テキスト エンコーダー、安定したサンプラー、および ID/制御モジュールを組み合わせたものです。 これらは最も便利なブロックとそれらがどのように一緒に遊ぶかです:
- チェックポイント + VAE: SD 1.5 または SDXL をロードします(画質とリソースの好みに応じて)。SDXL は詳細な画質を提供しますが、より多くの VRAM を必要とします。
- CLIP テキストエンコード(正/負): 明確なプロンプト、サブジェクト トークン (LoRA または埋め込みを使用している場合) およびスタイル/シーンの指示を示します。
- KSampler: DPM++ 2M Karras 安定サンプラー、20 ~ 35 ステップ、SDXL の CFG 4 ~ 7 (SD1.5 では 6 ~ 9)、再現性を確保するための固定シード。
- IP アダプター / InstantID: 顔によるコンディショニング 特性を維持するために、偏差に応じて強度(0.6~0.9)を調整します。
- ControlNet (OpenPose/Depth/Canny): アイデンティティが IP アダプタ/LoRA によって固定されたまま、ポーズ、ボリューム、輪郭を制御します。
- LoRA ローダー: 被験者の LoRA に 0.6~1.0 の重みを注入します。スタイルが歪む場合は、重みを減らすか、CFG を縮小します。
- Img2Img / タイリング: ソフトなバリエーションを作るには、ノイズ除去を 0.2~0.45 に設定します。値を大きくすると、アイデンティティが破壊されます。
これを基にすると、最も安定した組み合わせは通常次のようになります。 被験者 LoRA + FaceID IP アダプタ + ポーズ ControlNetLoRA はキャラクターを定義し、IP アダプタは細かい特徴を修正し、ControlNet はフレーミングと姿勢を自由に変化させます。
基本的なステップバイステップのフロー(ComfyUI)
まず、最小限かつ堅牢なフローを構築できます。 純粋なテキストから始める場合でも、画像からわずかなバリエーションを作成する場合でも役立ちます。:
- ロードチェックポイント (SDXLまたはSD1.5)および VAEをロードする.
- CLIP テキストエンコード(正): 被写体をトークンで説明します。LoRA がない場合は、特徴で説明します: 「若い成人、短い茶色の髪、緑の目、楕円形の顔」+ 希望するスタイル (「映画のようなポートレート、ソフト キー ライト」)。
- CLIP テキストエンコード(負): 回避すべきアーティファクト (「ぼやけている、変形している、余分な指がある、目が一致していない、髪の色が間違っている」) が含まれます。
- IPアダプター / インスタントID: 参照画像を結合し、初期強度を0.75(0.6~0.9で調整)に設定します。写真を1枚だけ使用する場合は、顔の部分を切り抜き、適切な露出になるように調整してください。
- コントロールネットポーズ (オプション): アイデンティティを失うことなく異なる表現やジェスチャーが必要な場合は、ポーズを定義します。
- KSampler: DPM++ 2M Karras、ステップ数28~32、CFG 5.5~7(SDXL:CFGが若干低下傾向)。比較対象シードは固定。
- VAEデコード そして、必要であれば、 アップスケーラー (細部まで精細に仕上げるには、4x-UltraSharp、ESRGAN、または SDXL Refiner を使用します)。
すでにお持ちの場合 被験者のLoRA重み 0.8 でサンプラーの前に追加します (低く開始し、類似性が不足している場合は上げていきます)。 堅牢なLoRAを使用すると、IPアダプタの強度を低下させることができますLoRA が ID を処理し、IP アダプタが「修正」するだけです。
違いを生むパラメータ
一貫性を調整する場合、小さなパラメータの変更が決定的になります。 コンディショニングの強さ、ノイズ除去、シードを制御することで、真の安定性が得られます:
- img2imgでのノイズ除去0.2~0.45では、特徴が維持され、照明や背景の変化に対応できます。0.55からは、特徴が消え去ります。
- CFGスケール画像が「無理やり」歪んでいる場合は、CFG を下げます。モデルがプロンプトを無視する場合は、CFG を半分だけ上げます。
- サンプラー/ステップ: DPM++ 2M Karras または 24 ~ 32 ステップの SDE Karras では、通常、アーティファクトのない一貫した結果が得られます。
- Seed: 比較のためのシード値を設定します。変動を緩やかにしたい場合は、強度0.1~0.3の「変動シード値」を使用します。
- 解決: 長辺768~1024は、顔の細かい特徴を強調します。SDXLでは、1024がディテールを強調するのに最適なサイズです。
髪の色や目の色が変わった場合は、否定文に「髪の色が間違っている、色が変わる、目の色が一貫していない」と追加して繰り返します。 また、各ショットのポジティブなプロンプトの一部として色を導入するのにも役立ちます。 モデルが「忘れ去られる」ことを防ぐためです。
アイデンティティを失わない表現、背景、照明
表情の変化(笑顔、驚き、口を開ける)には、 ControlNet OpenPose、または、さらに良いのは、顔のランドマークのプリプロセッサが利用可能になったときです。 面の形状を制御すると、変形が軽減され、モデルに特徴が現れるのを防ぐことができます。.
照明では、「左からのソフトボックス」、「リムライト」、「ゴールデンアワー」などのスキームを明確に定式化します。 環境参照(メンタルHDRI、スタジオの説明)を使用すると、アイデンティティに影響を与えずに影を誘導できます。肌の色が変化する場合は、「肌の色の一貫性」を追加するか、プロンプトで色温度を設定します。
複雑な背景の場合は、ControlNet Depth または Canny を低い強度 (0.35~0.55) で使用し、プロンプトで環境を説明します。 IPアダプタ/LoRAは、バックグラウンドのControlNetよりも重みを持つ必要があります。 顔が異物の輪郭で汚されないようにします。
見た目(服装/アクセサリー)を変えたいときは、テキストで入力して、いつも同じ服装が「引きずられる」場合の LoRA の重さを軽減します。 LoRA は美的詳細を上書きし、重みを調整して新しいプロンプトが送信されるようにします。.
トレーニングするべきかしないべきか:LoRA/埋め込みの実践ガイドライン
顔の参照が不十分な場合は、被写体の LoRA を検討してください。 さまざまな角度、表情、背景、照明で撮影した 10 ~ 30 枚の写真を使用します (ただし、顔はきれいに鮮明に写っている必要があります)。短辺を512~768ピクセルにトリミングし、ベースがジェネラリストの場合は男性と女性のバランスを取り、トークン名を書き留めます。
ガイドトレーニングパラメータ (SD1.5): ランク 4~8、アルファはランクに等しい、学習率 1e-4 ~ 5e-5、小さなバッチで 2k~6k ステップ。 過剰なトレーニングは避けてください。1 枚の写真の「クローン」が見られる場合は、手順を減らすか、種類を増やしてください。SDXL では、より高い解像度を使用し、より多くの VRAM を消費します。
埋め込み(テキスト反転)の場合、3~10 枚の写真で機能しますが、安定性を確保するにはさらに多くの手順が必要になります。 埋め込みは全体的な美観にあまり影響を与えず、重量も非常に軽いです。LoRA を管理せずに再利用可能なトークンが必要な場合に最適です。
品質、スケーリング、レタッチ
ベースイメージが生成されたら、顔の詳細を表現するために 2~4 倍のスケーラー (ESRGAN、4 倍 UltraSharp) または SDXL リファイナーを適用します。 リファイナーは、アーティファクトを導入することなく肌や目を補正することができます。特にシードとプロンプトを同じままにしておくと効果的です。
特定の目や口を修正するには、ADetailer または顔復元ノードを使用できます。 構成の残りの部分を維持しながら、局所的なエラーを修正する肌を「プラスチック化」してしまうような強いフィルターの使用は避け、代わりにシャープネスとマイクロコントラストの設定を微調整します。
よくある問題のトラブルシューティング
テイクごとに髪型が変わる場合、通常は過剰なノイズやあいまいなプロンプトが問題となります。 ノイズ除去/CFGを下げ、「短い茶色の髪」を強調するか、各プロンプトで特定のヘアスタイルを指定します。LoRAを使用する場合は、重みを0.1増やします。
目の色が異なる場合は、「緑色の目、目の色が一定」と追加し、否定形に「目の色が一定でない、異色症」と記入します。 IPアダプタ/インスタントIDは虹彩の詳細にも役立ちます 参照が非常に明確な場合。
スタイルがアイデンティティを「食い尽くす」場合(例:強いスタイルの LoRA)、スタイルの重みを減らすか、対象の LoRA の重みを増やします。 類似性を犠牲にしないようにするには、重みのバランスをとることが重要です。もう 1 つのオプションは、モデルがスタイルをあまり強制しないように CFG を下げることです。
変動が最小限の場合は、ノイズ除去をわずかに増やすか(0.05~0.1)、変動シードを使用します。 ちょっとしたランダムさを加えることで、機能を壊すことなく多様性を生み出すことができます.
コミュニティと標準:学び、共有する場所
Reddit の Stable Diffusion コミュニティは巨大で、非常に活発です。 /r/StableDiffusion では、アートを投稿したり、質問したり、議論したり、新しいオープン テクニックに貢献したりできます。; 公式フォーラムではありませんが、オープンソースエコシステムをサポートし、改善を支援することがその精神です。
ComfyUI サブレディットもコミュニティ/非公式であり、ワークフロー、質問、ヒントを共有するのに最適な場所です。 投稿はSFW(社会に適切)なものにしてください。有料ストリームを宣伝しないでください。話題に沿った内容にしてください。そして何よりも、親切にしてください。他の人の結果を無視すると禁止されるので、連続して投稿しすぎてフィードを乱雑にしないことが推奨されます。
グラフやパラメータが添付されているスレッドを調べることは、学習を加速させるのに最適です。 固定シード、LoRA 重み、参照画像を含むベンチマークを表示すると、どの設定が実際に機能するかがわかります。 実際には。
写真から音声付き動画へ:StableAvatar
さらに一歩進んで、音声を使って「話す」アバターを作成したい場合は、StableAvatar をご覧ください。 これは、潜在的に無制限の長さの、忠実度が高く、時間的に一貫性のある話し手のビデオを生成するためのフレームワークです。オーディオ トラックから開始します。
作者によると、480x832、25 fps の 5 秒のクリップの場合、–GPU_memory_mode=»model_full_load» の基本モデルでは約 18 GB の VRAM が必要となり、4090 GPU で約 3 分で終了します。 これにより、必要なリソースと最新のハードウェアで実現可能なパフォーマンスが明確にわかります。コードとモデルは https://github.com/Francis-Rings/StableAvatar から入手できます。
チームは、システム固有の LoRA/微調整が行われることを進めています。 これにより、アバターとその顔のスタイルをさらにカスタマイズできるようになります。静止画像と同じようにアイデンティティを固定しますが、一貫性のあるビデオシーケンスで固定します。
3つの重要な質問への直接的な回答

1) 参照画像だけで、ComfyUI で一貫性のあるアバターを直接作成できますか? はい、IP アダプタ (FaceID) または InstantID と、制御されたノイズ除去と固定シードを使用した堅牢なフローを使用すれば可能です。 写真は鮮明で正面から撮影したものでなければなりません; 単一の参照では極端な変化には限界がありますが、肖像画や中程度の変化には非常にうまく機能します。
2) 微調整や埋め込みの使用を検討すべきでしょうか?多くのシーンで最大限の堅牢性を求めるなら、軽量のLoRA被写体が最適です。 より良い努力と結果の比率埋め込み(テキスト反転)は軽量ですが、ニュアンスを捉える範囲は狭くなります。非常に特殊な作品を除き、完全な微調整が必要になることはほとんどありません。
3) ComfyUI で推奨されるノード構成またはテクニックは何ですか? チェックポイント + VAE + CLIP テキスト エンコード (正/負) + KSampler (DPM++ 2M Karras、24~32 ステップ、CFG 5~7) + IP アダプタ/InstantID + ControlNet (シーンに応じてポーズ/深度)。 被験者のLoRAに重み0.6~1.0を負荷する 両者が互いに補完し合うように、IP アダプタの電力を少し下げます。
4) 安定拡散とはどういう意味ですか、また何のためにあるのですか? この記事ではさらに詳しくお伝えします。
/r/StableDiffusion および ComfyUI コミュニティは、例を共有したり、フィードバックを求めたり、新しいトリックを発見したりできるオープン スペースであることを忘れないでください。 コンテンツはSFW(社会で正しく視聴できる)に留め、有料配信の宣伝は避け、始めたばかりの視聴者への語調には注意してください。; それらすべての間で、レベルが非常に速く上がります。
適切な出発点 (IP アダプター/インスタント ID)、固定シード、明確なプロンプト、ノイズ除去コントロールがあれば、設定、ジェスチャー、照明を変更することで、一貫性のあるポートレートを実現できます。 また、10~30 枚の異なる写真で LoRA をトレーニングすると、類似性が大幅に向上します。練習を重ねれば、ControlNetと後処理を微調整することで、高解像度でも安定した結果が得られます。さらに高度な技術を求める方には、StableAvatarが、適切なリソースがあれば、音声駆動型ビデオにも一貫したアイデンティティという同じ考え方を適用できることを示しています。
幼い頃からテクノロジーに熱中。私はこの分野の最新情報を知ること、そして何よりもそれを伝えることが大好きです。だからこそ、私は長年テクノロジーとビデオゲームのウェブサイトでのコミュニケーションに専念してきました。 Android、Windows、MacOS、iOS、Nintendo、またはその他の思いついた関連トピックについて書いているのを見つけることができます。