Giunsa paghimo ang mga realistiko nga avatar nga adunay Stable Diffusion ug ComfyUI

Katapusan nga pag-update: 21/10/2025

  • Ang IP-Adapter/InstantID ug LoRA mao ang labing lig-on nga combo para sa pag-establisar sa pagkatawo nga adunay mga kalainan sa pose, kahayag ug background.
  • Ang pagpugong sa denoise, CFG ug liso naghimo sa tanan nga kalainan sa pagpadayon sa pagkamakanunayon sa nawong tali sa mga shot.
  • Ang usa ka litrato mahimong mabuhi, apan ang usa ka LoRA nga adunay 10-30 nga mga imahe labi nga nagdugang sa pagkamakanunayon.
  • Ang /r/StableDiffusion ug ComfyUI nga mga komunidad nagtanyag og mga sapa ug suporta ubos sa mga lagda sa SFW ug mahigalaon nga pagtambal.

Giunsa paghimo ang mga realistiko nga avatar nga adunay Stable Diffusion + ComfyUI

¿Giunsa paghimo ang mga realistiko nga avatar nga adunay Stable Diffusion + ComfyUI? Ang paghimo sa usa ka realistiko ug makanunayon nga avatar nga adunay Stable Diffusion ug ComfyUI usa ka labi nga makab-ot nga katuyoan, apan kini nanginahanglan gamay nga teknik ug maayong paghukom. Ang yawe mao ang pagpreserbar sa pagkatawo (mga dagway sa nawong, estilo sa buhok, istruktura) samtang lainlain ang background, suga ug ekspresyon., nga kasagaran nagkinahanglan og kombinasyon sa workflow, piho nga mga node, ug usahay auxiliary nga mga modelo sama sa LoRA o embeddings.

Daghang mga tiggamit ang nag-atubang sa parehas nga problema: nga adunay usa ka reference nga imahe, nakab-ot nila ang usa ka maayo nga pagkaparehas sa usa ka shot, apan sa sunod, ang mga pagbag-o sa estilo sa buhok o kolor sa mata. Nakadungog na ka bahin sa pag-embed (pag-usab sa teksto), LoRA, ug ControlNet, ug normal nga maghunahuna kung unsang pamaagi ang angay kanimo.; Dugang pa, ang mga kapilian sama sa IP-Adapter ug InstantID nagpadayon sa pagtungha aron mapauswag ang pagkamakanunayon sa nawong. Niini nga artikulo, among gitubag ang labing kasagarang mga pangutana: igo ba ang usa ka reperensiya, mas maayo ba nga i-configure ang usa ka LoRA o gamiton ang mga embedding, ug kung unsang mga node/konfigurasyon ang labing maayo sa ComfyUI aron makab-ot ang mga lig-on nga avatar.

Unsa ang gipasabut sa pagkamakanunayon sa usa ka avatar?

Kung naghisgot kami bahin sa pagkamakanunayon, gipasabut namon nga ang karakter nagpabilin nga mailhan sa daghang mga imahe. Mahitungod kini sa pagmintinar sa importanteng bahin (porma sa nawong, mata, ilong, ngabil, buhok) ug ang "pagbati" sa hilisgutan bisan kung magdula kami sa pose, pagbuka sa baba, gahi nga kahayag o komplikado nga background.

Kini nga panaghiusa naggikan sa "angkla" nga pagkatawo sa proseso sa henerasyon. Kung ang modelo dili makadawat og igo nga mga signal bahin sa kung kinsa ang hilisgutan, kini lagmit nga mag-improvise ug motipas.; mao nga makataronganon ang paggamit sa biswal nga mga pakisayran, identidad modules, o gagmay nga custom tweaks (LoRA, embeddings) aron sa pagpalig-on sa pagkaparehas.

Dugang pa, kinahanglan nga ibulag kung unsang mga elemento ang mahimong mabag-o nga dili mabuak ang identidad ug dili mahimo. Ang background, sinina, ekspresyon ug laraw sa suga luwas nga mga variable; porma sa mata, kolor sa iris, linya sa buhok, ug istruktura sa bukog, dili kaayo daghan. Ang pag-ayo sa kana nga utlanan usa ka dako nga bahin sa trabaho.

Posible ba nga makab-ot kini sa usa ka imahe sa ComfyUI?

Ang mubo nga tubag mao: oo, nga adunay mga nuances. Ang usa ka litrato mahimong igo na kung mogamit ka og mga teknik sa paghisgot sa nawong sama sa IP-Adapter (FaceID) o InstantID ug kontrolahon ang lebel sa kasaba. sa img2img o ang kusog sa pagkondisyon. Siyempre, ang litrato kinahanglan nga tin-aw, maayo ang kahayag, ug atubangan o semi-profile, nga adunay tin-aw nga mga bahin.

Uban sa ComfyUI, usa ka kasagaran nga pamaagi mao ang paghiusa sa usa ka node nga pakisayran sa nawong nga adunay usa ka maayo nga gipasabut nga pag-aghat ug usa ka lig-on nga sampler. Ang visual conditioning "nagduso" sa modelo sa pagtahod sa mga bahin, samtang ang prompt nagdiktar sa estilo, background o sugaKung kinahanglan nimo ang daghang pagbag-o sa pose, pagsalig sa ControlNet (OpenPose) aron magiya ang pose nga wala’y pagtuis sa nawong.

Bisan pa, ang usa ka imahe adunay mga limitasyon: mahimo kini nga "sobra sa pagkat-on" sa piho nga ekspresyon o suga sa kana nga litrato. Kung nangita ka ug labing taas nga pagkamatinud-anon ug kaarang-arang, ang 6-20 nga mga reference nga mga imahe nagpauswag sa kinatibuk-an., ug, kon gikinahanglan, ang usa ka gaan nga LoRA nga gibansay sa imong mga litrato naghatag og labaw nga shot-to-shot nga pagkamakanunayon.

Embeddings, LoRA, o Fine-Tuning: Giunsa Pagpili

Adunay tulo ka mga nag-unang ruta sa pag-customize sa pagkatawo: mga embeddings (textual inversion), LoRA, ug full fine-tuning. Ang mga embeddings nagtudlo sa CLIP og bag-ong token nga nagrepresentar sa imong subject., nga adunay gamay nga MB ug makatarunganon nga paspas nga pagbansay, apan ang gahum niini limitado kung itandi sa LoRA.

Eksklusibo nga sulud - Pag-klik Dinhi  Kanus-a i-disable ang "Hardware-Accelerated Audio" sa Windows

Ang usa ka maayo nga nabansay nga LoRA, sa laing bahin, nag-inject sa kapasidad sa mga layer sa modelo aron makuha ang mga bahin nga mas tukma. Uban sa 10-30 nga lainlain nga mga litrato (anggulo, ekspresyon, kahayag) ug kasarangan nga pagbansay mahimo nimong makab-ot ang taas nga pagkamakanunayon. sa SD 1.5 o SDXL, samtang nagmintinar sa gamay nga gidak-on sa file (napulo ka MB). Kini ang tam-is nga lugar alang sa kadaghanan.

Ang bug-os nga fine-tuning sa checkpoint gitagana alang sa mga espisipiko kaayong mga produkto. Kini mahal, data-intensive, ug gi-overwrite ang kinatibuk-ang estilo sa modelo.Sa praktis, alang sa personal nga mga avatar, ang usa ka gaan nga LoRA o usa ka maayo nga pipeline nga nagpunting sa nawong kasagaran igo.

Girekomenda nga mga node ug block sa ComfyUI

Usa ka tipikal nga graph alang sa pagkamakanunayon naghiusa sa base checkpoint, text encoders, usa ka stable sampler, ug identity/control modules. Kini ang labing mapuslanon nga mga bloke ug kung giunsa nila pagdula nga magkauban:

  • Checkpoint + VAE: I-load ang SD 1.5 o SDXL (depende sa imong aesthetic ug resource preferences). Ang SDXL naghatag og detalye, apan nagkinahanglan og dugang nga VRAM.
  • CLIP Text Encode (positibo/negatibo): Tin-aw nga mga prompt, naghisgot sa subject token (kon naggamit sa LoRA o pag-embed) ug mga instruksyon sa estilo/eksena.
  • KSampler: DPM++ 2M Karras stable sampler, 20–35 steps, CFG 4–7 sa SDXL (6–9 sa SD1.5), fixed nga liso para sa reproducibility.
  • IP-Adapter / InstantID: pagkondisyon pinaagi sa nawong sa pagpadayon sa mga kinaiya; i-adjust ang kusog (0.6–0.9) sumala sa mga pagtipas.
  • ControlNet (OpenPose/Depth/Canny): Gikontrol ang pose, volume ug contour samtang ang identity nagpabiling nakaangkla sa IP-Adapter/LoRA.
  • LoRA Loader: I-inject ang LoRA sa imong subject nga may gibug-aton nga 0.6–1.0; kung kini makatuis sa estilo, pagpakunhod sa gibug-aton o pagpaubos sa CFG.
  • Img2Img / Tiling: Para sa humok nga mga kalainan, gamita ang denoise 0.2–0.45; mas taas nga mga bili makaguba sa pagkatawo.

Niini nga basehan, ang labing lig-on nga kombinasyon kasagaran: Subject LoRA + FaceID IP-Adapter + Pose ControlNetGihubit sa LoRA ang karakter, gitul-id sa IP-Adapter ang maayong mga bahin, ug ang ControlNet naghatag kanimo ug kagawasan sa pagbag-o sa imong pag-frame ug postura.

Batakang lakang-sa-lakang nga dagan (ComfyUI)

Sa pagsugod, makahimo ka og gamay, lig-on nga dagan. Kini magsilbi kanimo kung magsugod ka gikan sa puro nga teksto o kung maghimo ka gamay nga mga kalainan gikan sa usa ka imahe.:

  1. Pag-load sa Checkpoint (SDXL o SD1.5) ug Pagkarga sa VAE.
  2. CLIP Text Encode (positibo): Ihulagway ang hilisgutan sa ilang timaan o, kung walay LoRA, nga adunay mga bahin: «batan-on nga hamtong, mubo nga brown nga buhok, berde nga mga mata, oval nga nawong» + gitinguha nga estilo («cinematic portrait, soft key light»).
  3. CLIP Text Encode (negatibo): naglakip sa mga artifact nga likayan ("blurry, deformed, extra fingers, inconsistent eyes, wrong hair color").
  4. IP Adapter / InstantID: Ikonektar ang reference nga hulagway ug itakda ang inisyal nga kalig-on ngadto sa 0.75 (adjust 0.6–0.9). Kung usa ra ka litrato ang imong gigamit, i-crop kini sa nawong ug siguroha ang husto nga pagkaladlad.
  5. ControlNet Pose (opsyonal): ipasabut ang pose kung gusto nimo ang lainlaing mga ekspresyon / lihok nga dili mawala ang pagkatawo.
  6. KSampler: DPM++ 2M Karras, 28–32 nga mga lakang, CFG 5.5–7 (SDXL: hilig sa gamay nga ubos nga CFG). Fixed nga liso para sa ikumpara.
  7. Pag-decode sa VAE ug, kon gikinahanglan, a upscaler (4x-UltraSharp, ESRGAN, o SDXL Refiner alang sa maayong detalye).

Kung naa na nimo ang LoRA sa subject, idugang kini sa wala pa ang sampler nga adunay gibug-aton nga 0.8 (magsugod sa ubos ug pataas kung kulang ang pagkaparehas). Uban sa lig-on nga LoRA mahimo nimong makunhuran ang kusog sa IP-Adapter, tugotan ang LoRA nga magdumala sa pagkatawo ug ang IP-Adapter nga "tama".

Mga parametro nga naghimo sa kalainan

Kung ang pag-tune sa pagkamakanunayon, ang gagmay nga mga pagbag-o sa parameter ang mahukmanon. Ang pagkontrol sa kusog sa pagkondisyon, denoise ug ang liso naghatag kanimo tinuod nga kalig-on:

  • Denoise sa img2img: 0.2–0.45 nagmintinar sa mga feature ug nagtugot sa lain-laing suga/background. Gikan sa 0.55, ang pagkatawo natunaw.
  • CFG ScaleKung ang imahe "napugos" ug gituis, ipaubos ang CFG; kung ang modelo wala magtagad sa imong prompt, ipataas kini sa tunga sa punto.
  • Sampler/Lakang: DPM++ 2M Karras o SDE Karras nga adunay 24–32 nga mga lakang kasagarang maghatag ug makanunayon nga resulta nga walay mga artifact.
  • Binhi: Nagtakda sa liso alang sa pagtandi. Para sa malumo nga pagkalainlain, gamita ang "variation seed" nga adunay kusog nga 0.1–0.3.
  • Resolution: 768–1024 sa mas taas nga kilid nagpalambo sa maayong mga bahin sa nawong. Sa SDXL, ang 1024 mao ang matam-is nga lugar alang sa detalye.
Eksklusibo nga sulud - Pag-klik Dinhi  Ibalik ang klasiko nga Start menu sa Windows 11 lakang sa lakang

Kung mausab ang kolor sa buhok o mata, idugang ang "sayup nga kolor sa buhok, pagbalhin sa kolor, dili managsama nga kolor sa mata" sa negatibo ug balika. Nakatabang usab kini sa pagpaila sa kolor isip bahin sa positibo nga pag-aghat sa matag shot. aron mapugngan ang modelo nga "makalimtan".

Mga ekspresyon, background ug suga nga wala mawala ang pagkatawo

Alang sa lainlain nga mga ekspresyon (pahiyom, katingala, pagbuka sa baba), salig sa ControlNet OpenPose o, mas maayo pa, usa ka preprocessor sa mga timaan sa nawong kung kini magamit. Ang pagpugong sa geometry sa nawong makapamenos sa mga deformasyon ug makapugong sa modelo sa pag-imbento sa mga bahin..

Sa suga, klaro nga paghimo sa laraw: "softbox gikan sa wala", "rim light", "bulawan nga oras". Ang paggamit sa mga pakisayran sa kalikopan (mental HDRI, mga paghulagway sa studio) naggiya sa mga anino nga dili makaapekto sa pagkatawoKung mausab ang tono sa panit, idugang ang "konsistensya sa tono sa panit" o itakda ang temperatura sa kolor sa pag-aghat.

Para sa mga komplikado nga background, gamita ang ControlNet Depth o Canny sa ubos nga kusog (0.35–0.55) ug ihulagway ang palibot sa dayon. Ang IP-Adapter/LoRA kinahanglan nga adunay mas daghang gibug-aton kaysa sa background nga ControlNet aron ang nawong dili mahugawan sa langyaw nga mga contour.

Kung gusto nimong usbon ang imong hitsura (sinina/aksesorya), isulod kini sa textually ug pahumok ang gibug-aton sa LoRA kung kini kanunay nga "nag-drag" sa parehas nga sinina. Ang mga LoRA mahimong molapas sa mga detalye sa aesthetic; balanse nga mga gibug-aton aron ang mga bag-ong prompt ipadala..

Sa pagbansay o dili sa pagbansay: praktikal nga mga giya alang sa LoRA/embeddings

Kung dili igo ang pakisayran sa nawong, hunahunaa ang usa ka LoRA sa hilisgutan. Paggamit og 10–30 ka mga litrato nga adunay lain-laing mga anggulo, ekspresyon, background, ug kahayag (apan hupti nga limpyo ug hait ang imong nawong).. I-crop ang mubo nga kilid ngadto sa 512–768 px, balansehon ang lalaki/babaye kung ang imong base kay generalist, ug timan-i ang ngalan sa token.

Mga parametro sa paggiya sa pagbansay (SD1.5): ranggo 4–8, alpha katumbas sa ranggo, rate sa pagkat-on 1e-4 hangtod 5e-5, 2k–6k nga mga lakang nga adunay gamay nga batch. Likayi ang sobra nga pagbansay; kung makakita ka og "clone" sa usa ka litrato, pakunhuran ang mga lakang o dugangi ang lainlain.. Sa SDXL, gamita ang mas taas nga mga resolusyon ug gamita ang daghang VRAM.

Para sa mga embeddings (textual inversion), 3–10 ka mga litrato ang mahimo, pero magkinahanglan ka og dugang nga mga lakang alang sa kalig-on. Ang mga embeddings adunay gamay nga epekto sa kinatibuk-ang aesthetics ug gamay ra ang gibug-aton., maayo kung gusto nimo ang usa ka magamit nga token nga wala’y pagdumala sa LoRA.

Kalidad, scaling ug retouch

Kung mabuhat na ang base nga imahe, gamita ang 2–4x scaler (ESRGAN, 4x UltraSharp) o ang SDXL refiner para sa detalye sa nawong. Ang refiner makahimo sa pagtul-id sa panit ug mata nga walay pagpaila sa mga artifact, labi na kung imong gitipigan ang liso ug parehas nga pag-aghat.

Aron ayohon ang piho nga mga mata/baba, mahimo nimong gamiton ang ADetailer o mga node sa pagpahiuli sa nawong. Tukma ang mga lokal nga sayup samtang gipreserbar ang nahabilin nga komposisyonLikayi ang mapintas nga mga filter nga "plasticize" sa panit; sa baylo, pag-ayo-ayo ang katahom ug mga setting sa microcontrast.

Pag-troubleshoot sa kasagarang mga problema

Kung ang pagbag-o sa estilo sa buhok tali sa pagkuha, ang problema kasagaran sobra nga kasaba o dili klaro nga mga pag-aghat. Ubos nga denoise/CFG, palig-ona ang "mubo nga brown nga buhok" o ipiho ang usa ka piho nga estilo sa buhok sa matag pag-aghat. Kung mogamit ka sa LoRA, dugangi ang gibug-aton niini sa 0.1.

Kung lainlain ang kolor sa mga mata, idugang ang "green nga mga mata, makanunayon nga kolor sa mata" ug isulat ang "dili managsama nga kolor sa mata, heterochromia" sa negatibo. Ang IP-Adapter/InstantID makatabang usab sa detalye sa iris kung klaro kaayo ang reference.

Kung ang istilo "makaon" sa pagkatawo (pananglitan, usa ka kusgan nga istilo nga LoRA), pakunhuran ang gibug-aton niini o dugangan ang gibug-aton sa hilisgutan nga LoRA. Ang pagbalanse sa mga gibug-aton hinungdanon aron malikayan ang pagsakripisyo sa pagkaparehas.Ang laing kapilian mao ang pagpaubos sa CFG aron ang modelo dili mapugos pag-ayo sa estilo.

Kung gamay ra ang mga kalainan, dugangi og gamay ang denoise (0.05–0.1) o gamita ang liso sa variation. Ang usa ka gamay nga pagduso sa randomness nagmugna og lainlain nga wala makaguba sa mga bahin.

Mga Komunidad ug mga Sumbanan: Asa Magkat-on ug Magpaambit

Ang Stable Diffusion nga komunidad sa Reddit dako ug aktibo kaayo. Sa /r/StableDiffusion mahimo kang mag-post sa art, mangutana, maghisgot, ug makatampo sa bag-ong bukas nga mga teknik.; Dili kini opisyal nga forum, apan ang diwa niini mao ang pagsuporta sa open source nga ekosistema ug pagtabang kanimo nga molambo.

Eksklusibo nga sulud - Pag-klik Dinhi  Giunsa pag-ayo ang MSVCP140.dll ug likayan ang pag-install pag-usab sa naapektuhan nga dula o programa

Ang ComfyUI subreddit, usa usab ka komunidad / dili opisyal, usa ka maayong lugar aron ipaambit ang mga workflow, mga pangutana, ug mga tip. Palihug ipadayon ang mga post nga SFW, ayaw i-promote ang mga bayad nga sapa, magpabilin sa hilisgutan, ug labaw sa tanan, magmabination.Ang pagsalikway sa mga resulta sa ubang mga tawo moresulta sa usa ka pagdili, ug kini girekomendar nga dili kalat ang imong feed sa daghan kaayong mga post sa usa ka laray.

Ang pagsuhid sa mga thread diin ang mga graph ug mga parameter gilakip usa ka maayong paagi aron mapadali ang imong pagkat-on. Ang pagtan-aw sa mga benchmark nga adunay fixed nga mga liso, mga gibug-aton sa LoRA, ug mga reference nga mga hulagway nagpakita kanimo kung unsang mga setting ang aktuwal nga nagtrabaho. sa praktis.

Gikan sa litrato hangtod sa video nga adunay audio: StableAvatar

Kung gusto nimo nga mopadayon ug usa ka avatar nga "namulong" gamit ang audio, tan-awa ang StableAvatar. Usa kini ka balangkas alang sa pagmugna og taas nga pagkamatinud-anon, temporaryo nga makanunayon nga mga video sa pag-istoryahanay, nga mahimo’g walay kinutuban ang gitas-on., sugod sa audio track.

Sumala sa mga tagsulat niini, alang sa usa ka 5-segundos nga clip sa 480x832 ug 25 fps, ang base nga modelo nga adunay –GPU_memory_mode=»model_full_load» nanginahanglan gibana-bana nga 18 GB sa VRAM ug matapos sa mga 3 minuto sa usa ka 4090 GPU. Naghatag kini usa ka tin-aw nga ideya sa mga kapanguhaan nga gikinahanglan ug ang posible nga pasundayag sa modernong hardware.. Ang code ug modelo anaa sa: https://github.com/Francis-Rings/StableAvatar

Ang team nag-uswag nga adunay LoRA/finetuning nga espesipiko sa sistema. Kini nag-abli sa pultahan sa dugang nga pag-customize sa avatar ug sa iyang estilo sa nawong., nag-angkla sa pagkatawo sama sa atong gibuhat sa static nga mga hulagway, apan sa managsama nga mga han-ay sa video.

Direkta nga mga tubag sa tulo ka yawe nga mga pangutana

Mga balaod sa California IA

1) Makahimo ba ako og makanunayon nga mga avatar direkta sa ComfyUI nga adunay usa lamang ka reference nga imahe? Oo, gamit ang IP-Adapter (FaceID) o InstantID ug usa ka lig-on nga dagan nga adunay kontrolado nga denoise ug usa ka fixed nga liso. Ang litrato kinahanglan nga tin-aw ug atubangan; nga adunay usa ka pakisayran adunay mga limitasyon sa grabe nga pagkalainlain, apan alang sa mga litrato ug kasarangan nga pagbag-o kini molihok nga maayo.

2) Kinahanglan ba nako nga hunahunaon ang pag-ayo o paggamit sa pag-embed? Kung nangita ka ug labing taas nga kalig-on sa daghang mga eksena, ang usa ka gaan nga hilisgutan sa LoRA mao ang labing kaayo nga kapilian. mas maayo nga paningkamot/resulta ratioAng mga embeddings (textual inversion) mas gaan, apan mas gamay ang mga nuances. Ang bug-os nga fine-tuning panagsa ra gikinahanglan gawas sa piho kaayo nga mga produkto.

3) Unsa man ang girekomenda nga pagsumpo o mga teknik sa node sa ComfyUI? Checkpoint + VAE + CLIP Text Encode (pos/neg) + KSampler (DPM++ 2M Karras, 24–32 steps, CFG 5–7) + IP-Adapter/InstantID + ControlNet (pose/depth depende sa eksena). I-load ang LoRA sa hilisgutan nga adunay gibug-aton nga 0.6-1.0 ug ipaubos gamay ang gahum sa IP-Adapter aron ang duha magtinabangay sa usag usa.

4) Unsa ang gipasabut sa Stable Diffusion ug para sa unsa kini? Gisultihan ka namon labi pa sa kini nga artikulo.

Ayaw kalimti nga ang /r/StableDiffusion ug ComfyUI nga mga komunidad kay bukas nga mga lugar diin mahimo kang magpaambit sa mga pananglitan, mangayo og feedback, ug makadiskobre og bag-ong mga limbong. Ipadayon ang imong sulud nga SFW, likayi ang pagpasiugda sa mga bayad nga sapa, ug pag-amping sa imong tono sa mga nagsugod pa lang.; tali sa tanan kanila, ang lebel sa pagsaka sa labing madali.

Uban sa usa ka maayo nga punto sa pagsugod (IP Adapter/Instant ID), usa ka pirmi nga liso, tin-aw nga mga pag-aghat, ug pagkontrol sa denoise, mahimo nimong makab-ot ang makanunayon nga mga litrato pinaagi sa pagbag-o sa mga setting, lihok, ug suga. Kung nagbansay ka usab sa usa ka LoRA nga adunay 10-30 nga lainlaing mga litrato, ang pagkaparehas modaghan., ug uban sa praktis, ang pag-ayo sa ControlNet ug post-processing maghatag kanimo ug lig-on nga mga resulta bisan sa taas nga resolusyon. Alang sa mga gusto nga magpadayon sa mga butang, gipakita sa StableAvatar nga ang parehas nga ideya sa makanunayon nga pagkatawo mahimong magamit sa audio-driven nga video nga adunay husto nga mga kapanguhaan.