Hvernig á að búa til raunverulegar avatarar með Stable Diffusion og ComfyUI

Síðasta uppfærsla: 21/10/2025

  • IP-millistykki/InstantID og LoRA eru öflugasta samsetningin til að staðfesta auðkenningu með breytingum á stellingu, ljósi og bakgrunni.
  • Að stjórna hávaðaminnkun, CFG og fræjum skiptir öllu máli í að viðhalda samræmi í andliti milli skota.
  • Ein ljósmynd er nothæf, en LoRA með 10–30 myndum eykur samræmið til muna.
  • Samfélögin /r/StableDiffusion og ComfyUI bjóða upp á streymi og stuðning samkvæmt reglum SFW og vingjarnlega meðferð.

Hvernig á að búa til raunverulegar avatarar með Stable Diffusion + ComfyUI

¿Hvernig á að búa til raunverulegar avatarar með Stable Diffusion + ComfyUI? Að búa til raunhæfan og samræmdan avatar með Stable Diffusion og ComfyUI er sífellt meira raunhæft markmið, en það krefst smá tækni og góðrar dómgreindar. Lykilatriðið er að varðveita sjálfsmynd (andlitsdrætti, hárgreiðslu, uppbyggingu) en jafnframt breyta bakgrunni, lýsingu og svipbrigðum., sem krefst oft blöndu af vinnuflæði, tilteknum hnútum og stundum hjálparlíkönum eins og LoRA eða innfellingum.

Margir notendur standa frammi fyrir sama vandamáli: með viðmiðunarmynd ná þeir góðri líkingu í einni mynd en í þeirri næstu breytist hárgreiðslan eða augnliturinn. Þú hefur heyrt um innfellingu (textaumsnúning), LoRA og ControlNet, og það er eðlilegt að velta fyrir sér hvaða aðferð hentar þér.; Að auki halda valkostir eins og IP-Adapter og InstantID áfram að koma fram til að bæta samræmi í andlitsmyndum. Í þessari grein fjallar við um algengustu spurningarnar: hvort ein tilvísun sé nægjanleg, hvort betra sé að stilla LoRA eða nota innfellingar og hvaða hnútar/stillingar virka best í ComfyUI til að ná stöðugum avatars.

Hvað er átt við með samræmi í avatar?

Þegar við tölum um samræmi, þá meinum við að persónan sé þekkjanleg í mörgum myndum. Það snýst um að viðhalda nauðsynlegum eiginleikum (lögun andlits, augna, nefs, vara, hárs) og „tilfinningu“ viðfangsefnisins. jafnvel þótt við leikum okkur með stellingu, munnopnun, hart ljós eða flókinn bakgrunn.

Þessi samræmi kemur frá því að „festa“ sjálfsmyndina í kynslóðarferlinu. Ef líkanið fær ekki nægileg merki um hver viðfangsefnið er, mun það hafa tilhneigingu til að improvisera og víkja frá sjónarhóli.; þess vegna er skynsamlegt að nota sjónrænar tilvísanir, auðkenniseiningar eða litlar sérsniðnar breytingar (LoRA, innfellingar) til að styrkja líkindi.

Að auki er nauðsynlegt að aðgreina hvaða þættir geta breyst án þess að rofna sjálfsmyndina og hvaða ekki. Bakgrunnur, klæðnaður, svipbrigði og lýsingarsamsetning eru öruggar breytur; augnlögun, litur lithimnu, hárlína og beinabygging, ekki svo mikið. Fínstilling þessara marka er stór hluti af verkinu.

Er hægt að ná þessu með einni mynd í ComfyUI?

Stutta svarið er: já, með smáatriðum. Ein ljósmynd getur verið nóg ef þú notar andlitstilvísunaraðferðir eins og IP-millistykki (FaceID) eða InstantID og stjórnar hávaðastiginu. í img2img eða styrkleika aðstæðna. Að sjálfsögðu verður myndin að vera skýr, vel upplýst og framan á eða hálfsniðin, með skýrum andlitsdrætti.

Með ComfyUI er dæmigerð aðferð að sameina andlitsviðmiðunarhnút við vel skilgreinda fyrirmæli og stöðugan sýnatökubúnað. Sjónræn skilyrðing „ýtir“ á líkanið að virða eiginleikana, en fyrirmælin ráða stíl, bakgrunni eða lýsingu.Ef þú þarft mikla breytileika í stellingum skaltu treysta á ControlNet (OpenPose) til að leiðbeina stellingunni án þess að afmynda andlitið.

Hins vegar hefur ein mynd sín takmörk: hún getur „oflært“ tiltekna svipbrigði eða lýsingu í þeirri mynd. Ef þú ert að leita að hámarks nákvæmni og fjölhæfni, þá bæta 6–20 viðmiðunarmyndir alhæfingu., og ef nauðsyn krefur, þá veitir létt LoRA sem er þjálfað á myndirnar þínar framúrskarandi samræmi á milli mynda.

Innfellingar, LoRA eða fínstilling: Hvernig á að velja

Það eru þrjár meginleiðir til að sérsníða auðkenni: innfellingar (textaumsnúningur), LoRA og fullkomin fínstilling. Innfellingar kenna CLIP nýtt tákn sem táknar viðfangsefnið þitt., með fáum MB og tiltölulega hraðri þjálfun, en afköst þess eru takmörkuð miðað við LoRA.

Einkarétt efni - Smelltu hér  YouTube líkindagreining: Heildarleiðbeiningar fyrir skapara

Vel þjálfað LoRA, hins vegar, sprautar afkastagetu inn í lög líkansins til að fanga eiginleika nákvæmar. Með 10–30 mismunandi portrettmyndum (sjónarhornum, svipbrigðum, ljósi) og miðlungsmikilli þjálfun er hægt að ná mjög mikilli samræmi. í SD 1.5 eða SDXL, en samt sem áður viðhalda lítilli skráarstærð (tugir MB). Þetta er kjörinn staður fyrir flesta.

Full fínstilling á eftirlitsstaðnum er frátekin fyrir mjög sértækar framleiðslur. Það er dýrt, gagnafrekt og skrifar yfir heildarstíl líkansins.Í reynd, fyrir persónulegar avatarar, er létt LoRA eða góð andlitstilvísunarleiðsla venjulega nóg.

Ráðlagðir hnútar og blokkir í ComfyUI

Dæmigert graf fyrir samræmi sameinar grunneftirlitsstaðsetningu, textakóðara, stöðugan sýnatökubúnað og auðkennis-/stýringareiningar. Þetta eru gagnlegustu kubbanar og hvernig þeir spila saman:

  • Eftirlitsstöð + VAEHlaðið inn SD 1.5 eða SDXL (fer eftir útliti og auðlindavali). SDXL býður upp á smáatriði en krefst meira VRAM.
  • CLIP textakóðun (jákvæð/neikvæð)Skýrar fyrirmæli, þar sem getið er um efnistákn (ef LoRA eða innfelling er notuð) og leiðbeiningar um stíl/senu.
  • KSamplerDPM++ 2M Karras stöðugur sýnatökubúnaður, 20–35 skref, CFG 4–7 á SDXL (6–9 á SD1.5), fast fræ fyrir endurtekningarhæfni.
  • IP-millistykki / Augnabliks-ID: næring með andliti til að viðhalda eiginleikum; aðlaga styrk (0.6–0.9) eftir frávikum.
  • ControlNet (OpenPose/Depth/Canny): Stýrir stellingu, rúmmáli og útlínum en auðkenni helst fest með IP-millistykki/LoRA.
  • LoRA hleðslutækiSprautaðu LoRA viðfangsefnisins með þyngdum á bilinu 0.6–1.0; ef það raskar stíl skaltu draga úr þyngd eða minnka CFG.
  • Img2Img / FlísarFyrir mjúkar breytingar skal nota denoise 0.2–0.45; hærri gildi eyðileggja auðkenni.

Á þessum grundvelli er stöðugasta samsetningin venjulega: LoRA + FaceID IP-millistykki + Pose ControlNetLoRA skilgreinir persónuna, IP-millistykkið leiðréttir fíngerða eiginleika og ControlNet gefur þér frelsi til að breyta ramma og stellingu.

Grunnatriði skref fyrir skref (ComfyUI)

Til að byrja með er hægt að byggja upp lágmarks, öflugt flæði. Það mun gagnast þér hvort sem þú byrjar með hreinum texta eða gerir smávægilegar breytingar á mynd.:

  1. Hleðslustöð (SDXL eða SD1.5) og Hlaða VAE.
  2. CLIP textakóðun (jákvætt)Lýstu viðfangsefninu með tákni þeirra eða, ef engin LoRA er til staðar, með eiginleikum: «ungur fullorðinn, stutt brúnt hár, græn augu, sporöskjulaga andlit» + æskilegur stíll («kvikmyndaportrett, mjúklykill í ljós»).
  3. CLIP textakóðun (neikvæð): inniheldur atriði sem ber að forðast („óskýr, afmynduð, aukafingur, ósamræmi í augum, rangur hárlitur“).
  4. IP-millistykki / Augnablik IDTengdu viðmiðunarmyndina og stilltu upphafsstyrkinn á 0.75 (stilltu 0.6–0.9). Ef þú notar aðeins eina mynd skaltu klippa hana að andlitinu og tryggja rétta lýsingu.
  5. ControlNet Pose (valfrjálst): skilgreindu stellingu ef þú vilt mismunandi svipbrigði/látbragð án þess að glata sjálfsmynd.
  6. KSampler: DPM++ 2M Karras, 28–32 skref, miðgildi grunnþróunar 5.5–7 (SDXL: stefnir að örlítið lægri miðgildi grunnþróunar). Fast fræ fyrir sambærileg efni.
  7. VAE afkóðun og, ef nauðsyn krefur, a uppfærðari (4x-UltraSharp, ESRGAN eða SDXL Refiner fyrir fínar smáatriði).

Ef þú ert nú þegar með LoRA viðfangsefnisins, bætið því við fyrir sýnatökuna með þyngdinni 0.8 (byrjið lágt og farið upp ef líkindi vantar). Með traustum LoRA er hægt að draga úr styrk IP-millistykkisins., sem leyfir LoRA að sjá um auðkennið og IP-millistykkið bara „leiðrétta“.

Breytur sem skipta máli

Þegar samræmi er stillt eru litlar breytingar á breytum afgerandi. Að stjórna styrk knúsunar, hávaðaminnkun og fræinu gefur þér raunverulegan stöðugleika:

  • Hávaðadeyfing í img2img0.2–0.45 viðheldur eiginleikum og gerir kleift að breyta lýsingu/bakgrunni. Frá 0.55 bráðnar sjálfsmyndin út.
  • CFG mælikvarðaEf myndin er „þvinguð“ og brengluð skaltu lækka CFG; ef líkanið hunsar fyrirmælin skaltu hækka hana um hálft stig.
  • Sýnishorn/skrefDPM++ 2M Karras eða SDE Karras með 24–32 skrefum gefa venjulega samræmdar niðurstöður án artefacts.
  • Fræ: Stillir fræið fyrir samanburð. Fyrir væga breytileika skal nota „breytileikafræ“ með styrkleika 0.1–0.3.
  • Upplausn768–1024 á lengri hliðinni undirstrikar fíngerð andlitsdrætti. Í SDXL er 1024 kjörinn punktur fyrir smáatriði.
Einkarétt efni - Smelltu hér  MKBHD lokar Panels, veggfóðursappinu sínu, og mun opna frumkóðann sinn.

Ef hár- eða augnlitur breytist skaltu bæta við „rangur hárlitur, litabreyting, ósamræmi í augnlit“ í neikvæða línuna og endurtaka. Það hjálpar einnig að kynna liti sem hluta af jákvæðu hvatningu í hverri mynd. til að koma í veg fyrir að fyrirmyndin „gleymist“.

Svipbrigði, bakgrunnur og lýsing án þess að missa sjálfsmynd

Fyrir breytileg svipbrigði (bros, undrun, opinn munnur) skaltu treysta á ControlNet OpenPose eða, enn betra, forvinnsluforrit fyrir andlitsmerki þegar það verður tiltækt. Að stjórna rúmfræði andlitsins dregur úr aflögun og kemur í veg fyrir að líkanið búi til eiginleika..

Í lýsingu, mótið skýrt kerfið: „mjúkkassi frá vinstri“, „ljós á brúninni“, „gullna klukkustundin“. Með því að nota umhverfistilvísanir (huglægt HDRI, lýsingar á vinnustofu) er hægt að leiðbeina skugga án þess að hafa áhrif á sjálfsmynd.Ef húðliturinn breytist skaltu bæta við „samkvæmni húðlitar“ eða stilla litahitastigið í fyrirmælunum.

Fyrir flókna bakgrunna skal nota ControlNet Depth eða Canny við lágan styrk (0.35–0.55) og lýsa umhverfinu við fyrirspurnina. IP-millistykkið/LoRA ætti að hafa meiri þyngd en bakgrunnsstýringin ControlNet. svo að andlitið mengist ekki af framandi útlínum.

Þegar þú vilt breyta útliti þínu (fötum/aukahlutum) skaltu slá þau inn með texta og mýkja þyngd LoRA ef það „dregur“ alltaf sama klæðnaðinn. LoRA-kerfi geta hnekkt fagurfræðilegum smáatriðum; vegið upp á móti þyngd svo nýjar leiðbeiningar séu sendar..

Að þjálfa eða ekki þjálfa: hagnýtar leiðbeiningar fyrir LoRA/innfellingar

Ef andlitstilvísun er ekki nægjanleg skaltu íhuga LoRA af viðfangsefninu. Notaðu 10–30 myndir með fjölbreyttum sjónarhornum, svipbrigðum, bakgrunni og lýsingu (en hafðu andlitið hreint og skarpt).Skerið styttri hliðina niður í 512–768 px, haldið jafnvægi milli karlkyns og kvenkyns ef grunnurinn er almennur og takið eftir nafni táknsins.

Leiðbeinandi þjálfunarbreytur (staðalfrávik 1.5): stig 4–8, alfa jafnt stigi, námshraði 1e-4 til 5e-5, 2k–6k skref með litlum hópum. Forðastu ofþjálfun; ef þú sérð „eftirlíkingu“ af einni mynd skaltu fækka skrefum eða bæta við fjölbreytni.Á SDXL, notaðu hærri upplausn og taktu meira VRAM.

Fyrir innfellingar (textaumsnúning) geta 3–10 myndir virkað, en þú þarft fleiri skref til að tryggja stöðugleika. Innfellingar hafa minni áhrif á heildarfagurfræðina og vega mjög lítið., tilvalið ef þú vilt endurnýtanlegan tákn án þess að stjórna LoRA.

Gæði, stækkun og lagfæring

Þegar grunnmyndin er búin til skal nota 2–4x kvarða (ESRGAN, 4x UltraSharp) eða SDXL-hreinsunarvél til að fá smáatriði í andliti. Hreinsunartækið getur leiðrétt húð og augu án þess að valda arfleifðum, sérstaklega ef þú heldur fræinu og sömu fyrirmælunum.

Til að laga tiltekin augu/munn er hægt að nota ADetailer eða andlitsviðgerðarhnúta. Leiðréttu staðbundnar villur en varðveittu restina af samsetningunniForðist sterk síur sem „mýkja“ húðina; fínstillið í staðinn skerpu og örbirtustillingar.

Úrræðaleit algengra vandamála

Ef hárgreiðslan breytist á milli taka er vandamálið venjulega of mikill hávaði eða óljósar leiðbeiningar. Minnkaðu hávaðaminnkun/CFG, styrktu „stuttan brúnan hár“ eða tilgreindu ákveðna hárgreiðslu í hverri fyrirmæli.Ef þú notar LoRA skaltu auka þyngd þess um 0.1.

Ef augun eru mismunandi á litinn skal bæta við „græn augu, samkvæmur augnlitur“ og skrifa „ósamkvæmur augnlitur, mismunandi litbrigði“ neitandi. IP-millistykki/InstantID hjálpa einnig við smáatriði í augnhimnunni þegar tilvísunin er mjög skýr.

Ef stíllinn „étur“ sjálfsmyndina (t.d. sterkur stíll með LoRA) skal draga úr vægi hans eða auka vægi viðfangsefnisins við LoRA. Það er nauðsynlegt að jafna þyngdina til að forðast að fórna líkindum.Annar möguleiki er að lækka CFG svo að líkanið þvingi ekki fram stílinn eins mikið.

Ef breytingarnar eru í lágmarki skal auka hávaðaminnkunina örlítið (0.05–0.1) eða nota breytileika. Smá tilviljun skapar fjölbreytni án þess að brjóta eiginleika.

Samfélög og staðlar: Hvar á að læra og deila

Stable Diffusion samfélagið á Reddit er risastórt og mjög virkt. Í /r/StableDiffusion er hægt að birta listaverk, spyrja spurninga, ræða og leggja sitt af mörkum til nýrra opinna aðferða.Þetta er ekki opinbert spjallborð, en andi þess er að styðja við vistkerfi opins hugbúnaðar og hjálpa þér að bæta þig.

Einkarétt efni - Smelltu hér  Hvernig á að tímasetja tölvuna þína til að endurræsa (eða slökkva á) á ákveðnum tíma

ComfyUI subreddit-ið, einnig samfélagslegt/óopinbert, er frábær staður til að deila vinnuflæðum, spurningum og ráðum. Vinsamlegast haldið færslunum ykkar í friði, ekki auglýsa greiddar streymi, haldið ykkur við efnið og umfram allt, verið góð.Að hunsa niðurstöður annarra leiðir til banns og það er mælt með því að troða ekki færslunum þínum of mikið í röð.

Að skoða þræði þar sem gröf og breytur eru tengdar er frábær leið til að flýta fyrir námi þínu. Að skoða viðmið með föstum fræjum, LoRA-vigtum og viðmiðunarmyndum sýnir þér hvaða stillingar virka í raun. í reynd.

Frá mynd í myndband með hljóði: StableAvatar

Ef þú vilt ganga skrefinu lengra og fá avatar sem „talar“ með hljóði, skoðaðu þá StableAvatar. Þetta er rammi til að búa til hágæða, tímabundin myndbönd með talandi höfðum, hugsanlega ótakmarkaða lengd., byrjandi frá hljóðrás.

Samkvæmt höfundum þess, fyrir 5 sekúndna myndskeið í 480x832 og 25 fps, þarf grunngerðin með –GPU_memory_mode=»model_full_load» um það bil 18 GB af VRAM og lýkur á um 3 mínútum á 4090 GPU. Þetta gefur skýra hugmynd um nauðsynlegar auðlindir og mögulega afköst á nútíma vélbúnaði.Kóði og líkan eru aðgengileg á: https://github.com/Francis-Rings/StableAvatar

Teymið fullyrðir að það verði LoRA/fínstilling sértæk fyrir kerfið. Þetta opnar dyrnar að því að sérsníða avatarinn og andlitsstíl hans frekar., sem festir sjálfsmynd í sessi eins og við gerum í kyrrstæðum myndum, en í samhangandi myndbandsröðum.

Bein svör við þremur lykilspurningum

Lög í Kaliforníu, Iowa

1) Get ég búið til samræmdar avatars beint í ComfyUI með bara viðmiðunarmynd? Já, með því að nota IP-millistykki (FaceID) eða InstantID og öflugt flæði með stýrðri hávaðaminnkun og föstum frægildum. Myndin verður að vera skýr og beint að framanmeð einni tilvísun eru takmörk fyrir miklum breytileika, en fyrir portrettmyndir og miðlungsmiklar breytingar virkar það mjög vel.

2) Ætti ég að íhuga fínstillingu eða að nota innfellingu? Ef þú ert að leita að hámarksöryggi í mörgum senum, þá er létt LoRA-viðfangsefni besti kosturinn. betra hlutfall á milli fyrirhafnar og árangursInnfellingar (textaumsnúningur) eru léttari en fanga færri blæbrigði. Full fínstilling er sjaldan nauðsynleg nema í mjög sértækum framleiðslum.

3) Hverjar væru ráðlagðar hnútastillingar eða aðferðir í ComfyUI? Eftirlitspunktur + VAE + CLIP Textakóðun (staða/neikvæð) + KSampler (DPM++ 2M Karras, 24–32 skref, CFG 5–7) + IP-millistykki/InstantID + ControlNet (staða/dýpt fer eftir sviðsmynd). Hlaða LoRA myndefnisins með þyngd 0.6–1.0 og lækkaðu afl IP-millistykkisins aðeins svo að þau standi saman.

4) Hvað þýðir stöðug dreifing og til hvers er hún notuð? Við segjum þér enn meira í þessari grein.

Ekki gleyma að samfélögin /r/StableDiffusion og ComfyUI eru opin rými þar sem þú getur deilt dæmum, beðið um ábendingar og uppgötvað ný brögð. Haltu efninu þínu óháð efni, forðastu að auglýsa greiddar streymi og vertu varkár með tóninn þinn gagnvart þeim sem eru rétt að byrja.; á milli þeirra allra hækkar stigið mjög hratt.

Með góðum upphafspunkti (IP-millistykki/skyndiskilríki), föstum fræpunkti, skýrum fyrirmælum og suðdeyfingu er nú hægt að ná samræmdum andlitsmyndum með því að breyta stillingum, bendingum og lýsingu. Ef þú þjálfar líka LoRA með 10–30 mismunandi myndum eykst líkindin verulega., og með æfingu mun fínstilling ControlNet og eftirvinnslu gefa þér traustar niðurstöður, jafnvel við háa upplausn. Fyrir þá sem vilja taka hlutina lengra sýnir StableAvatar að sömu hugmynd um samræmda auðkenni er hægt að beita á hljóðdrifið myndband með réttum úrræðum.