Kiel krei realismajn avatarojn per Stable Diffusion + ComfyUI

IP-adaptilo/InstantID kaj LoRA estas la plej fortika kombinaĵo por establi identecon kun varioj en pozo, lumo kaj fono.
Kontroli malbruon, CFG kaj semojn faras la tutan diferencon en konservado de vizaĝa konsistenco inter pafoj.
Ununura foto estas farebla, sed LoRA kun 10–30 bildoj multe pliigas koherecon.
La komunumoj /r/StableDiffusion kaj ComfyUI ofertas retsendojn kaj subtenon laŭ SFW-reguloj kaj afabla traktado.

¿Kiel krei realismajn avatarojn per Stable Diffusion + ComfyUI? Krei realisman kaj koheran avataron per Stable Diffusion kaj ComfyUI estas ĉiam pli atingebla celo, sed ĝi postulas iom da tekniko kaj bonan juĝon. La ŝlosilo estas konservi identecon (vizaĝajn trajtojn, hararanĝon, strukturon) dum oni varias la fonon, lumon kaj esprimojn., kiu ofte postulas kombinaĵon de laborfluo, specifajn nodojn, kaj kelkfoje helpmodelojn kiel LoRA aŭ enkorpigojn.

Multaj uzantoj alfrontas la saman problemon: per referenca bildo, ili atingas bonan similecon en unu foto, sed en la sekva, la hararanĝo aŭ okulkoloro ŝanĝiĝas. Vi aŭdis pri enkorpigo (teksta inversigo), LoRA, kaj ControlNet, kaj estas normale demandi sin, kiu aliro taŭgas por vi.Krome, opcioj kiel IP-Adaptilo kaj InstantID daŭre aperas por plibonigi vizaĝkoherecon. En ĉi tiu artikolo, ni traktas la plej oftajn demandojn: ĉu ununura referenco sufiĉas, ĉu estas pli bone konfiguri LoRA-on aŭ uzi enkorpigojn, kaj kiuj nodoj/konfiguracioj funkcias plej bone en ComfyUI por atingi stabilajn avatarojn.

Kion ni celas per konsistenco en avataro?

Kiam ni parolas pri konsistenco, ni celas, ke la rolulo restas rekonebla tra pluraj bildoj. Temas pri konservado de la esencaj trajtoj (formo de la vizaĝo, okuloj, nazo, lipo, hararo) kaj la "senton" de la subjekto. eĉ se ni ludas kun pozo, buŝmalfermo, forta lumo aŭ kompleksaj fonoj.

Ĉi tiu kohereco venas de "ankrado" de identeco en la generadoprocezo. Se la modelo ne ricevas sufiĉajn signalojn pri kiu estas la subjekto, ĝi emas improvizi kaj devii.tial estas logike uzi vidajn referencojn, identecajn modulojn aŭ malgrandajn kutimajn ŝanĝojn (LoRA, enkorpigojn) por plifortigi similecon.

Krome, necesas apartigi, kiuj elementoj povas ŝanĝiĝi sen rompi la identecon kaj kiuj ne. Fono, vestaĵoj, esprimo kaj lumskemo estas sekuraj variabloj; okulformo, iriskoloro, harlimo kaj ostostrukturo, ne tiom multe. Fajnagordi tiun limon estas granda parto de la laboro.

Ĉu eblas atingi tion per unu sola bildo en ComfyUI?

La mallonga respondo estas: jes, kun nuancoj. Ununura foto povas sufiĉi se vi uzas vizaĝreferencajn teknikojn kiel IP-Adaptilo (FaceID) aŭ InstantID kaj kontrolas la bruonivelon. en img2img aŭ la forto de kondiĉado. Kompreneble, la foto devas esti klara, bone lumigita, kaj fronta aŭ duonprofila, kun klaraj trajtoj.

Kun ComfyUI, tipa aliro estas kombini vizaĝan referencnodon kun klare difinita promptilo kaj stabila samplilo. Vida kondiĉado "puŝas" la modelon respekti la trajtojn, dum la prompto diktas stilon, fonon aŭ lumon.Se vi bezonas multan variadon de pozoj, fidu ControlNet (OpenPose) por gvidi la pozon sen distordi la vizaĝon.

Tamen, unuopa bildo havas siajn limojn: ĝi povas "trolerni" la specifan esprimon aŭ lumon en tiu foto. Se vi serĉas maksimuman fidelecon kaj multflankecon, 6–20 referencaj bildoj plibonigas ĝeneraligon., kaj, se necese, malpeza LoRA trejnita sur viaj fotoj provizas superan koherecon de foto al foto.

Enkorpigoj, LoRA, aŭ Fajnagordado: Kiel Elekti

Ekzistas tri ĉefaj vojoj al identeca personigo: enkorpigoj (teksta inversio), LoRA, kaj plena fajnagordo. Enkorpigoj instruas al CLIP novan ĵetonon, kiu reprezentas vian subjekton., kun malmultaj MB kaj sufiĉe rapida trejnado, sed ĝia potenco estas limigita kompare kun LoRA.

Ekskluziva enhavo - Klaku Ĉi tie Kiel redakti PDF-dosierojn senpage: Jen la plej bonaj senpagaj iloj por fari tion.

Bone trejnita LoRA, aliflanke, injektas kapaciton en tavolojn de la modelo por kapti trajtojn pli precize. Per 10–30 diversaj portretoj (anguloj, esprimoj, lumo) kaj modera trejnado vi povas atingi tre altan konstantecon. en SD 1.5 aŭ SDXL, samtempe konservante malgrandan dosiergrandecon (dekoj da MB). Ĉi tio estas la ideala loko por la plejmulto.

Plena fajnagordo de la kontrolpunkto estas rezervita por tre specifaj produktadoj. Ĝi estas multekosta, daten-intensa, kaj anstataŭigas la ĝeneralan stilon de la modelo.En praktiko, por personaj avataroj, malpeza LoRA aŭ bona vizaĝ-referenca dukto kutime sufiĉas.

Rekomenditaj nodoj kaj blokoj en ComfyUI

Tipa grafeo por konsistenco kombinas la bazan kontrolpunkton, tekstajn kodigilojn, stabilan samplilon, kaj identeco-/kontrolmodulojn. Jen estas la plej utilaj blokoj kaj kiel ili ludas kune:

Kontrolpunkto + VAEŜarĝu SD 1.5 aŭ SDXL (depende de viaj estetikaj kaj rimedaj preferoj). SDXL provizas detalojn, sed postulas pli da VRAM.
CLIP Teksta Ĉifrilo (pozitiva/negativa)Klaraj promptoj, menciante la subjektan ĵetonon (se oni uzas LoRA aŭ enkorpigon) kaj stilo/sceno-instrukciojn.
KSamplerDPM++ 2M Karras stabila samplilo, 20–35 paŝoj, CFG 4–7 ĉe SDXL (6–9 ĉe SD1.5), fiksa semo por reproduktebleco.
IP-adaptilo / InstantID: kondiĉigado per vizaĝo por subteni trajtojn; adaptu forton (0.6–0.9) laŭ devioj.
Kontrolreto (OpenPose/Depth/Canny): Kontrolas pozon, volumenon kaj konturon dum identeco restas ankrita per IP-Adaptilo/LoRA.
LoRA-ŜargiloInjektu la LoRA-on de via subjekto kun pezoj de 0.6–1.0; se ĝi distordas la stilon, reduktu la pezon aŭ malgrandigu la CFG-on.
Img2Img / KaheladoPor molaj varioj, uzu malbruigon 0.2–0.45; pli altaj valoroj detruas identecon.

Surbaze de tio, la plej stabila kombinaĵo estas kutime: Objekto LoRA + FaceID IP-adaptilo + Pozo-KontrolretoLoRA difinas la karakteron, IP-adaptilo korektas fajnajn trajtojn, kaj ControlNet donas al vi la liberecon variigi vian enkadrigon kaj pozon.

Baza paŝon post paŝa fluo (ComfyUI)

Por komenci, vi povas konstrui minimuman, fortikan fluon. Ĝi servos vin ĉu vi komencas de pura teksto aŭ se vi faras malgrandajn variojn de bildo.:

Ŝarĝa Kontrolpunkto (SDXL aŭ SD1.5) kaj Ŝarĝu VAE.
CLIP Teksta Ĉifrilo (pozitiva)Priskribu la subjekton per ties simbolo aŭ, se ne estas LoRA, per trajtoj: «juna plenkreskulo, mallonga bruna hararo, verdaj okuloj, ovala vizaĝo» + dezirata stilo («kinematografia portreto, mola ŝlosila lumo»).
CLIP Teksta Ĉifrilo (negativa): inkluzivas artefaktojn por eviti ("malklaraj, misformitaj, superfluaj fingroj, malkonsekvencaj okuloj, malĝusta harkoloro").
IP-adaptilo / Tuja ID: Konekti la referencan bildon kaj agordi la komencan forton al 0.75 (alĝustigi 0.6–0.9). Se vi uzas nur unu foton, altranĉu ĝin al la vizaĝo kaj certigu ĝustan eksponon.
Kontrola Reta Pozo (nedeviga): difinu pozon se vi volas malsamajn esprimojn/gestojn sen perdi identecon.
KSamplerDPM++ 2M Karras, 28–32 ŝtupoj, CFG 5.5–7 (SDXL: emas al iomete pli malalta CFG). Fiksa semo por kompareblaj produktoj.
VAE Deĉifras kaj, se necese, plialtigilo (4x-UltraSharp, ESRGAN, aŭ SDXL Refiner por fajnaj detaloj).

Se vi jam havas LoRA de la subjekto, aldonu ĝin antaŭ la samplilo kun pezo 0.8 (komencu malalte kaj iru supren se mankas simileco). Per solida LoRA vi povas redukti la forton de IP-adaptilo, lasante la LoRA-on pritrakti la identecon kaj la IP-adaptilon simple "korekti".

Parametroj kiuj faras la diferencon

Kiam oni agordas konsistencon, malgrandaj parametroŝanĝoj estas decidaj. Kontroli kondiĉigan forton, malbruon kaj la semon donas al vi veran stabilecon:

Malbruo en img2img0.2–0.45 konservas trajtojn kaj permesas varian lumon/fonon. Ekde 0.55, la identeco fandiĝas.
CFG-SkaloSe la bildo estas "trudita" kaj distordita, malaltigu la CFG; se la modelo ignoras vian prompton, altigi ĝin je duona punkto.
Samplilo/PaŝojDPM++ 2M Karras aŭ SDE Karras kun 24–32 paŝoj kutime donas koherajn rezultojn sen artefaktoj.
Semo: Agordas la valoron por komparoj. Por milda variado, uzu "variadan valoron" kun forto de 0.1–0.3.
Rezolucio768–1024 sur la pli longa flanko plibeligas fajnajn vizaĝajn trajtojn. Ĉe SDXL, 1024 estas la ideala punkto por detaloj.

Ekskluziva enhavo - Klaku Ĉi tie Vindozo ignoras potencajn agordojn kaj malaltigas rendimenton: praktikaj solvoj

Se harkoloro aŭ okulkoloro ŝanĝiĝas, aldonu "malĝusta harkoloro, kolorŝanĝo, malkonsekvenca okulkoloro" en la negative kaj ripetu. Ankaŭ helpas enkonduki koloron kiel parton de la pozitiva sugesto en ĉiu foto. por malhelpi ke la modelo estu "forgesita".

Esprimoj, fonoj kaj lumigado sen perdo de identeco

Por variaj esprimoj (rideto, surprizo, malfermita buŝo), fidu je Kontrolreto OpenPose aŭ, eĉ pli bone, antaŭprocesoro de vizaĝaj orientiloj kiam ĝi fariĝos havebla. Kontroli la geometrion de la vizaĝo reduktas deformadojn kaj malhelpas la modelon inventi trajtojn..

En lumigado, klare formu la skemon: "molkesto de maldekstre", "randolumo", "ora horo". Uzi mediajn referencojn (mensa HDRI, studiaj priskriboj) gvidas ombrojn sen influi identecon.Se la haŭtnuanco ŝanĝiĝas, aldonu "haŭtnuancan konsistencon" aŭ agordu la kolortemperaturon en la prompto.

Por kompleksaj fonoj, uzu ControlNet Depth aŭ Canny je malalta forto (0.35–0.55) kaj priskribu la ĉirkaŭaĵon ĉe la prompto. La IP-adaptilo/LoRA devus havi pli da pezo ol la fona ControlNet por ke la vizaĝo ne estu malpurigita per fremdaj konturoj.

Kiam vi volas ŝanĝi vian aspekton (vestaĵojn/akcesoraĵojn), enigu ilin tekste kaj malpezigu la LoRA-on se ĝi ĉiam "trenas" la saman kostumon. LoRA-oj povas superregi estetikajn detalojn; ekvilibrigi pezojn por ke novaj promptoj estu senditaj..

Trejni aŭ ne trejni: praktikaj gvidlinioj por LoRA/enkorpigoj

Se vizaĝreferenco ne sufiĉas, konsideru LoRA-on de la subjekto. Uzu 10–30 fotojn kun diversaj anguloj, esprimoj, fono kaj lumo (sed tenu vian vizaĝon pura kaj akra).. Detranĉu la mallongan flankon al 512–768 rastrumeroj, balancu viran/inan se via bazo estas ĝeneralisto, kaj notu la nomon de la ĵetono.

Gvidaj trejnaj parametroj (SD1.5): rango 4–8, alfa egala al rango, lernado-rapideco 1e-4 ĝis 5e-5, 2k–6k paŝoj kun malgranda aro. Evitu trotrejnadon; se vi vidas "klonon" de unuopa foto, reduktu paŝojn aŭ aldonu pli da diverseco.Ĉe SDXL, uzu pli altajn rezoluciojn kaj okupu pli da VRAM.

Por enkorpigoj (teksta inversigo), 3–10 fotoj povas funkcii, sed vi bezonos pliajn paŝojn por stabileco. Enkonstruaĵoj havas malpli da efiko sur la ĝeneralan estetikon kaj pezas tre malmulte., ideale se vi volas reuzeblan ĵetonon sen administri LoRA-on.

Kvalito, skalado kaj retuŝado

Post kiam la baza bildo estas generita, apliku 2-4x skalanton (ESRGAN, 4x UltraSharp) aŭ la SDXL-rafinilon por vizaĝaj detaloj. La rafinilo povas korekti haŭton kaj okulojn sen enkonduki artefaktojn, precipe se vi konservas la semon kaj la saman promptilon.

Por ripari specifajn okulojn/buŝon, vi povas uzi ADetailer aŭ vizaĝajn restarigajn nodojn. Korektu lokajn erarojn konservante la reston de la komponaĵoEvitu severajn filtrilojn, kiuj "plastigas" la haŭton; anstataŭe, fajne agordu akrecon kaj mikrokontrastajn agordojn.

Solvado de oftaj problemoj

Se la hararanĝo ŝanĝiĝas inter prenoj, la problemo kutime estas troa bruo aŭ ambiguaj promptoj. Malpliigu bruon/CFG-on, plifortigu "mallongan brunan hararon" aŭ specifu specifan hararanĝon en ĉiu promptoSe vi uzas LoRA-on, pliigu ĝian pezon je 0.1.

Se la okuloj varias laŭ koloro, aldonu "verdaj okuloj, kohera okulkoloro" kaj skribu "malkohera okulkoloro, heterokromio" en la negativa formo. IP-adaptilo/InstantID ankaŭ helpas pri irisaj detaloj kiam la referenco estas tre klara.

Se la stilo "manĝas" la identecon (ekz., forta stila LoRA), reduktu ĝian pezon aŭ pliigu la pezon de la subjekta LoRA. Ekvilibrigi pezojn estas esenca por eviti oferi similecon.Alia eblo estas malaltigi CFG por ke la modelo ne tiom devigu la stilon.

Se la varioj estas minimumaj, iomete pliigu malbruigon (0.05–0.1) aŭ uzu variacian semon. Eta puŝo de hazardo kreas diversecon sen rompi trajtojn.

Komunumoj kaj Normoj: Kie Lerni kaj Kunhavigi

La komunumo Stable Diffusion ĉe Reddit estas grandega kaj tre aktiva. En /r/StableDiffusion vi povas afiŝi artaĵojn, demandi demandojn, diskuti kaj kontribui al novaj malfermaj teknikoj.Ĝi ne estas oficiala forumo, sed ĝia spirito estas subteni la malfermfontecan ekosistemon kaj helpi vin pliboniĝi.

Ekskluziva enhavo - Klaku Ĉi tie Kiel ligi vian iPhone al Vindozo per iCloud kaj Outlook uzante OAuth 2.0

La subreddito ComfyUI, ankaŭ komunuma/neoficiala, estas bonega loko por dividi laborfluojn, demandojn kaj konsilojn. Bonvolu konservi afiŝojn en la mondo de SFW, ne reklami pagitajn elsendojn, resti ĉe la temo, kaj ĉefe, esti afabla.Ignori la rezultojn de aliaj homoj rezultigos malpermeson, kaj estas rekomendinde ne troŝarĝi vian fluon per tro multaj afiŝoj sinsekve.

Esplori fadenojn, kie grafeoj kaj parametroj estas ligitaj, estas bonega maniero akceli vian lernadon. Rigardante komparnormojn kun fiksitaj semoj, LoRA-pezoj kaj referencaj bildoj, vi montras, kiuj agordoj efektive funkcias. en la praktiko.

De foto al video kun aŭdio: StableAvatar

Se vi volas iri paŝon pluen kaj havi avataron kiu "parolas" per aŭdio, rigardu StableAvatar. Ĝi estas kadro por generi altfidelajn, tempe koherajn parolkapajn filmetojn, eble de senlima longo., komencante de sonspuro.

Laŭ ĝiaj aŭtoroj, por 5-sekunda filmeto je 480x832 kaj 25 kadroj por sekundo, la baza modelo kun –GPU_memory_mode=»model_full_load» postulas proksimume 18 GB da VRAM kaj finiĝas post ĉirkaŭ 3 minutoj sur 4090 GPU. Tio donas klaran ideon pri la bezonataj rimedoj kaj la ebla rendimento sur moderna aparataro.Kodo kaj modelo haveblas ĉe: https://github.com/Francis-Rings/StableAvatar

La teamo antaŭenigas, ke estos LoRA/fajnagordo specifa por la sistemo. Ĉi tio malfermas la pordon al plua personigo de la avataro kaj ĝia vizaĝstilo., ankrante identecon kiel ni faras en senmovaj bildoj, sed en koheraj videosekvencoj.

Rektaj respondoj al la tri ŝlosilaj demandoj

Kaliforniaj leĝoj de IA

1) Ĉu mi povas krei koherajn avatarojn rekte en ComfyUI kun nur referenca bildo? Jes, uzante IP-adaptilon (FaceID) aŭ InstantID kaj fortikan fluon kun kontrolita malbruigo kaj fiksa valoro. La foto devas esti klara kaj fronta; kun ununura referenco ekzistas limoj al ekstrema vario, sed por portretoj kaj moderaj ŝanĝoj ĝi funkcias tre bone.

2) Ĉu mi konsideru fajnagordon aŭ uzu enkorpigon? Se vi serĉas maksimuman fortikecon tra multaj scenoj, malpeza LoRA-subjekto estas la plej bona elekto. pli bona rilatumo inter peno kaj rezultoEnkorpigoj (teksta inversigo) estas pli malpezaj, sed kaptas malpli da nuancoj. Plena fajnagordado malofte necesas krom por tre specifaj produktaĵoj.

3) Kiuj estus la rekomendindaj nodkonfiguracioj aŭ teknikoj en ComfyUI? Kontrolpunkto + VAE + CLIP Teksta Kodado (pozicio/negativo) + KSampler (DPM++ 2M Karras, 24–32 paŝoj, CFG 5–7) + IP-Adaptilo/InstantID + ControlNet (pozo/profundo depende de la sceno). Ŝarĝu LoRA-on de la subjekto kun pezo 0.6–1.0 kaj iomete malaltigu la potencon de la IP-adaptilo por ke ambaŭ kompletigu unu la alian.

4) Kion signifas Stabila Difuzo kaj por kio ĝi servas? Ni rakontas al vi eĉ pli en ĉi tiu artikolo.

Ne forgesu, ke la komunumoj /r/StableDiffusion kaj ComfyUI estas malfermaj spacoj, kie vi povas kunhavigi ekzemplojn, peti reagojn kaj malkovri novajn trukojn. Konservu vian enhavon SFW, evitu reklami pagitajn elsendojn, kaj estu singarda pri via tono kun tiuj, kiuj ĵus komencas.; inter ĉiuj el ili, la nivelo altiĝas tre rapide.

Kun bona deirpunkto (IP-adaptilo/tuja identigilo), fiksa valoro, klaraj promptiloj kaj bruoredukto, vi nun povas atingi koherajn portretojn ŝanĝante agordojn, gestojn kaj lumigadon. Se vi ankaŭ trejnas LoRA-on kun 10–30 malsamaj fotoj, la simileco signife pliiĝas., kaj kun praktiko, fajnagordado de ControlNet kaj post-prilaborado donos al vi solidajn rezultojn eĉ ĉe alta rezolucio. Por tiuj, kiuj volas iri pluen, StableAvatar montras, ke la sama ideo de kohera identeco povas esti aplikita al aŭdio-movita filmeto kun la ĝustaj rimedoj.

Cristian Garcia

Pasiigita pri teknologio ekde li estis malgranda. Mi amas esti ĝisdatigita en la sektoro kaj ĉefe komuniki ĝin. Tial mi jam de multaj jaroj dediĉas min al komunikado en teknologiaj kaj videoludaj retejoj. Vi povas trovi min skribante pri Android, Vindozo, MacOS, iOS, Nintendo aŭ ajna alia rilata temo, kiu venas al la menso.