- Az IP-Adapter/InstantID és a LoRA a legrobusztusabb kombináció az identitás megteremtéséhez a pózok, a fények és a háttér variációival.
- A zajszűrés, a CFG és a seed szabályozása nagyban befolyásolja az arc konzisztenciájának megőrzését a felvételek között.
- Egyetlen fotó is megvalósítható, de egy 10–30 képet tartalmazó LoRA nagymértékben növeli a konzisztenciát.
- Az /r/StableDiffusion és a ComfyUI közösségek SFW szabályok és barátságos bánásmód mellett streameket és támogatást kínálnak.

¿Hogyan készítsünk valósághű avatarokat a Stable Diffusion + ComfyUI segítségével? Egyre elérhetőbb cél egy valósághű és következetes avatár létrehozása a Stable Diffusion és a ComfyUI segítségével, de ehhez némi technikára és jó ítélőképességre van szükség. A kulcs az identitás (arcvonások, frizura, alkat) megőrzése, miközben változtatjuk a hátteret, a megvilágítást és a kifejezéseket., ami gyakran munkafolyamatok, specifikus csomópontok és néha kiegészítő modellek, például LoRA vagy beágyazások kombinációját igényli.
Sok felhasználó szembesül ugyanazzal a problémával: egy referenciaképpel az egyik felvételen jó hasonlóságot érnek el, de a következőben megváltozik a frizura vagy a szemszín. Hallottál már a beágyazásról (szöveges inverzió), a LoRA-ról és a ControlNet-ről, és normális, ha azon tűnődsz, melyik megközelítés a megfelelő számodra.Ezenkívül folyamatosan jelennek meg olyan opciók, mint az IP-Adapter és az InstantID, amelyek javítják az arckifejezések egységességét. Ebben a cikkben a leggyakoribb kérdésekkel foglalkozunk: elegendő-e egyetlen hivatkozás, jobb-e LoRA-t konfigurálni vagy beágyazásokat használni, és mely csomópontok/konfigurációk működnek a legjobban a ComfyUI-ban a stabil avatarok eléréséhez.
Mit értünk következetesség alatt egy avatár esetében?
Amikor a következetességről beszélünk, azt értjük alatta, hogy a karakter több képen keresztül is felismerhető marad. A lényegi vonások (arc, szem, orr, ajak, haj formája) és a modell „érzésmódjának” megőrzéséről van szó. még akkor is, ha pózokkal, szájnyitásokkal, kemény fénnyel vagy összetett hátterekkel játszunk.
Ez a koherencia az identitás generációs folyamatba való „lehorgonyzásából” fakad. Ha a modell nem kap elegendő jelzést arról, hogy ki a vizsgált személy, hajlamos lesz improvizálni és eltérni a tervezetttől.; ezért van értelme vizuális hivatkozásokat, identitásmodulokat vagy apró egyéni módosításokat (LoRA, beágyazások) használni a hasonlóság megerősítése érdekében.
Ezenkívül el kell különíteni, hogy mely elemek változhatnak az identitás megsértése nélkül, és melyek nem. A háttér, az öltözködés, a kifejezésmód és a világítási séma biztonságos változók.; a szem formája, az írisz színe, a hajvonal és a csontszerkezet, nem annyira. Ennek a határvonalnak a finomhangolása a munka nagy részét képezi.
Lehetséges ezt egyetlen képpel elérni a ComfyUI-ban?
A rövid válasz: igen, árnyalatokkal. Egyetlen fotó is elegendő lehet, ha arcfelismerő technikákat, például IP-Adaptert (FaceID) vagy InstantID-t használsz, és szabályozod a zajszintet. az img2img-ben vagy a kondicionálás erősségében. Természetesen a fotónak tisztának, jól megvilágítottnak és frontálisnak vagy félprofilnak kell lennie, éles vonásokkal.
A ComfyUI esetében egy tipikus megközelítés egy arcreferencia-csomópont kombinálása egy jól definiált prompttal és egy stabil mintavevővel. A vizuális kondicionálás „arra kényszeríti” a modellt, hogy tiszteletben tartsa a jellemzőket, miközben a prompt diktálja a stílust, a hátteret vagy a világítást.Ha sok pózvariációra van szükséged, támaszkodj a ControlNet (OpenPose) programra, amely az arc torzítása nélkül vezeti a pózt.
Azonban egyetlen képnek is megvannak a maga korlátai: „túltanulhatja” az adott képen látható konkrét kifejezést vagy megvilágítást. Ha maximális hűséget és sokoldalúságot keres, 6–20 referenciakép javítja az általánosítást., és ha szükséges, egy a fotóidon képzett könnyű LoRA kiváló képminőséget biztosít felvételről felvételre.
Beágyazások, LoRA vagy finomhangolás: Hogyan válasszunk?
Az identitás testreszabásának három fő módja van: beágyazások (szöveges inverzió), LoRA és teljes finomhangolás. A beágyazások megtanítják a CLIP-nek egy új tokent, amely a témádat képviseli., kevés MB-val és viszonylag gyors betanítással, de a ereje korlátozottabb a LoRA-hoz képest.
Egy jól képzett LoRA ezzel szemben kapacitást juttat a modell rétegeibe, hogy pontosabban rögzítse a jellemzőket. 10–30 változatos portréval (szögekből, arckifejezésekből, fényekből) és mérsékelt képzéssel nagyon magas konzisztenciát lehet elérni. SD 1.5 vagy SDXL formátumban, miközben a fájlméret kis marad (több tíz MB). Ez a legtöbb ember számára az ideális.
Az ellenőrzőpont teljes finomhangolása nagyon specifikus produkciókra van fenntartva. Drága, adatigényes, és felülírja a modell általános stílusát.A gyakorlatban személyes avatárokhoz általában elegendő egy könnyű LoRA vagy egy jó arc-referencia folyamat.
Ajánlott csomópontok és blokkok a ComfyUI-ban
Egy tipikus konzisztencia-gráf egyesíti az alap ellenőrzőpontot, a szövegkódolókat, egy stabil mintavevőt és az identitás-/vezérlőmodulokat. Ezek a leghasznosabb blokkok és hogyan játszanak együtt:
- Ellenőrzőpont + VAE: Tölts be SD 1.5 vagy SDXL memóriakártyát (a stílustól és az erőforrás-preferenciáktól függően). Az SDXL részletesebb megjelenítést biztosít, de több VRAM-ot igényel.
- CLIP szövegkódolás (pozitív/negatív)Világos kérdések, amelyek megemlítik a tárgy tokent (LoRA vagy beágyazás használata esetén) és a stílus/jelenet utasításait.
- KSamplerDPM++ 2M Karras stabil mintavevő, 20–35 lépés, CFG 4–7 SDXL-en (6–9 SD1.5-ön), fix mintavételi index a reprodukálhatóság érdekében.
- IP-adapter / InstantID: arckondicionálás a tulajdonságok fenntartása érdekében; az eltéréseknek megfelelően módosítsa az erősséget (0.6–0.9).
- ControlNet (OpenPose/Depth/Canny): A pózt, a hangerőt és a kontúrt szabályozza, miközben az identitást az IP-Adapter/LoRA rögzíti.
- LoRA betöltő: 0.6–1.0 közötti súlyokkal súllyal alkalmazd az alany LoRA-ját; ha torzítja a stílust, csökkentsd a súlyt, vagy skálázd vissza a CFG-t.
- Img2Img / CsempézésLágy variációkhoz használjon 0.2–0.45 zajszűrést; a magasabb értékek elpusztítják az identitást.
Ennek alapján a legstabilabb kombináció általában a következő: Tárgy LoRA + FaceID IP-adapter + Pose ControlNetA LoRA meghatározza a karaktert, az IP-Adapter korrigálja a finom jellemzőket, a ControlNet pedig szabadságot ad a képkivágás és a testtartás változtatásában.
Alapvető lépésenkénti folyamat (ComfyUI)
Kezdésként létrehozhatsz egy minimális, robusztus áramlást. Akkor is hasznos lesz, ha tiszta szövegből indulsz ki, vagy ha egy kép alapján készítesz apró változtatásokat.:
- Betöltési ellenőrzőpont (SDXL vagy SD1.5) és VAE betöltése.
- CLIP szövegkódolás (pozitív): Írd le a témát a tokenjével, vagy ha nincs LoRA, akkor a következő jellemzőkkel: «fiatal felnőtt, rövid barna haj, zöld szemek, ovális arc» + kívánt stílus («filmes portré, lágy megvilágítás»).
- CLIP szövegkódolás (negatív): kerülendő műtermékeket tartalmaz („elmosódott, deformált, plusz ujjak, következetlen szemek, rossz hajszín”).
- IP-adapter / Azonnali ID: Csatlakoztasd a referenciaképet, és állítsd a kezdeti erősség értékét 0.75-re (0.6–0.9 között módosítsd). Ha csak egy fotót használsz, vágd ki az archoz, és ügyelj a megfelelő expozícióra.
- ControlNet póz (opcionális): definiáld a pózt, ha különböző arckifejezéseket/gesztusokat szeretnél anélkül, hogy elveszítenéd az identitásodat.
- KSamplerDPM++ 2M Karras, 28–32 lépés, CFG 5.5–7 (SDXL: valamivel alacsonyabb CFG felé hajlik). Fix kezdőpont az összehasonlíthatóaknál.
- VAE dekódolás és ha szükséges, egy előkelő (4x-UltraSharp, ESRGAN vagy SDXL Refiner a finom részletekhez).
Ha már van egy Az alany LoRA-ja, add hozzá a 0.8-as súllyal rendelkező mintavevő elé (kezdd alacsonyan, és növeld, ha hiányzik a hasonlóság). Szilárd LoRA-val csökkenthető az IP-adapter erőssége., hagyva, hogy a LoRA kezelje az identitást, az IP-adapter pedig csak a „javítást”.
A különbséget jelentő paraméterek
A konzisztencia hangolásakor a kis paraméterváltozások döntőek. A szárszárás erősségének, a zajszűrésnek és a vetőmagnak a szabályozása valódi stabilitást biztosít.:
- Zajcsökkentés az img2img-benA 0.2–0.45 értékek megőrzik a jellegzetességeket, és lehetővé teszik a változó megvilágítást/háttér használatát. 0.55-től az identitás elolvad.
- CFG skálaHa a kép „erőltetett” és torz, csökkentsd a CFG értékét; ha a modell figyelmen kívül hagyja a promptodat, növeld fél ponttal.
- Mintavevő/LépésekA 24–32 lépéses DPM++ 2M Karras vagy SDE Karras általában konzisztens eredményeket ad műtermékek nélkül.
- Mag: Beállítja az összehasonlítások kezdőértékét. Enyhe variációhoz használjon 0.1–0.3 erősségű „variációs kezdőértéket”.
- felbontásA hosszabb oldalon a 768–1024-es árnyalatok kiemelik a finom arcvonásokat. Az SDXL méretben a 1024-es a részletek tökéletes kidolgozása.
Ha a haj vagy a szem színe megváltozik, a negatívumban tüntesd fel a "rossz hajszín, színeltolódás, inkonzisztens szemszín" szöveget, és ismételd meg. Az is segít, ha a színeket a pozitív üzenet részeként illusztráljuk minden egyes felvételen. hogy megakadályozza a modell „elfeledésbe merülését”.
Kifejezések, hátterek és megvilágítás az identitás elvesztése nélkül
Változó kifejezések (mosoly, meglepetés, nyitott száj) esetén támaszkodjon a következőkre: ControlNet OpenPose, vagy még jobb, egy arcbeli tereptárgyak előfeldolgozója, amint elérhetővé válik. Az arc geometriájának szabályozása csökkenti a deformációkat és megakadályozza, hogy a modell saját jellemzőket hozzon létre..
Világításban világosan fogalmazd meg a sémát: "softbox balról", "peremfény", "aranyóra". Környezeti referenciák (mentális HDRI, stúdióleírások) használata az árnyékok vezetéséhez az identitás befolyásolása nélkülHa a bőrtónus eltolódik, add hozzá a „bőrtónus konzisztenciája” opciót, vagy állítsd be a színhőmérsékletet a promptban.
Összetett hátterek esetén használd a ControlNet Depth vagy a Canny értékét alacsony erősségen (0.35–0.55), és a promptnál írd le a környezetet. Az IP-Adapter/LoRA-nak nagyobb súllyal kell rendelkeznie, mint a háttérben futó ControlNet-nek. hogy az arc ne szennyeződjön be idegen kontúrokkal.
Ha meg szeretnéd változtatni a megjelenésedet (ruházat/kiegészítők), add meg őket szövegesen, és enyhítsd a LoRA súlyát, ha az mindig ugyanazt a ruhát „húzza magával”. A LoRA-k felülírhatják az esztétikai részleteket; kiegyensúlyozhatják a súlyokat, hogy új promptokat küldjenek..
Betanítani vagy nem betanítani: gyakorlati útmutató a LoRA-hoz/beágyazáshoz
Ha az arcra való utalás nem elegendő, érdemes megfontolni a téma LoRA-ját. Használj 10–30 fotót változatos szögekből, arckifejezésekből, háttérből és megvilágításból (de az arcod maradjon tiszta és éles).Vágd le a rövidebb oldalt 512–768 képpontra, egyensúlyozd ki a férfi/női arányokat, ha generalista az állományod, és jegyezd fel a token nevét.
Irányító betanítási paraméterek (SD1.5): rang 4–8, alfa egyenlő a ranggal, tanulási sebesség 1e-4-től 5e-5-ig, 2–6 lépés kis tételben. Kerüld a túledzést; ha egyetlen fotó „klónját” látod, csökkentsd a lépések számát, vagy növeld a változatosságot.SDXL lemezen használjon magasabb felbontást és foglaljon el több VRAM-ot.
Beágyazáshoz (szöveges inverzió) 3-10 fotó is elegendő lehet, de a stabilitás érdekében több lépésre lesz szükség. A beágyazások kevésbé befolyásolják az összképet, és nagyon kis súlyúak., ideális, ha újrafelhasználható tokent szeretne LoRA kezelése nélkül.
Minőség, méretezés és retusálás
Miután az alapkép elkészült, alkalmazzon 2–4x-es méretezőt (ESRGAN, 4x UltraSharp) vagy SDXL finomítót az arc részleteinek kiemeléséhez. A finomító műtermékek nélkül korrigálhatja a bőr és a szemek bőrét, különösen, ha megtartod a kezdőértéket és ugyanazt a promptot.
Adott szemek/száj javításához használhatod az ADetailer-t vagy az arcrestaurációs csomópontokat. Helyi hibák javítása a kompozíció többi részének megőrzése mellettKerüld az erős szűrőket, amelyek „lágyítják” a bőrt; ehelyett finomhangold az élességet és a mikrokontraszt beállításokat.
Gyakori problémák hibaelhárítása
Ha a frizura a felvételek között változik, a probléma általában a túlzott zaj vagy a félreérthető utasítások. Csökkentse a zajszűrést/CFG-t, erősítse meg a "rövid barna haj" kifejezést, vagy adjon meg egy adott frizurát minden egyes promptbanHa LoRA-t használsz, növeld a súlyát 0.1-gyel.
Ha a szemek színe változó, írd hozzá a „zöld szemek, konzisztens szemszín” jelölést, és a negatív helyre írd be: „inkonzisztens szemszín, heterokrómia”. Az IP-Adapter/InstantID segít az írisz részleteinek kijelzésében is. amikor a hivatkozás nagyon egyértelmű.
Ha a stílus „megeszi” az identitást (pl. egy erős stílusú LoRA), csökkentse a súlyát, vagy növelje a tárgy LoRA súlyát. A súlyok kiegyensúlyozása elengedhetetlen a hasonlóság feláldozásának elkerülése érdekében.Egy másik lehetőség a CFG csökkentése, hogy a modell ne erőltesse annyira a stílust.
Ha az eltérések minimálisak, növelje kissé a zajszűrést (0.05–0.1), vagy használjon variációs magot. Egy kis véletlenszerűség változatosságot teremt a funkciók megszakítása nélkül.
Közösségek és szabványok: Hol tanulhatunk és oszthatunk meg
A Redditen található Stable Diffusion közösség hatalmas és nagyon aktív. Az /r/StableDiffusion oldalon művészeti alkotásokat posztolhatsz, kérdéseket tehetsz fel, beszélgethetsz és hozzájárulhatsz új, nyílt technikákhoz.Ez nem egy hivatalos fórum, de a célja, hogy támogassa a nyílt forráskódú ökoszisztémát és segítsen a fejlődésedben.
A ComfyUI subreddit, amely szintén közösségi/nem hivatalos, remek hely a munkafolyamatok, kérdések és tippek megosztására. Kérlek, a posztokat tartsd röviden, ne reklámozz fizetős streameket, maradj a témánál, és mindenekelőtt légy kedves.Mások eredményeinek figyelmen kívül hagyása kitiltást von maga után, és nem ajánlott túl sok egymást követő bejegyzéssel túlzsúfolni a hírfolyamot.
A grafikonokat és paramétereket tartalmazó szálak felfedezése nagyszerű módja a tanulás felgyorsításának. A fix kezdőértékekkel, LoRA súlyokkal és referenciaképekkel rendelkező benchmarkok megtekintése megmutatja, hogy mely beállítások működnek valójában. gyakorlatban.
Fotóból videó hanggal: StableAvatar
Ha egy lépéssel tovább szeretnél menni, és egy olyan avatárt szeretnél, amely hanggal „beszél”, nézd meg a StableAvatart. Ez egy keretrendszer nagy hűségű, időben konzisztens, potenciálisan korlátlan hosszúságú beszélő fej videók létrehozására., egy hangsávból kiindulva.
A szerzők szerint egy 5 másodperces, 480x832 felbontású és 25 fps-es kliphez az alapmodell a –GPU_memory_mode=»model_full_load» beállítással körülbelül 18 GB VRAM-ot igényel, és egy 4090-es GPU-n körülbelül 3 perc alatt befejeződik. Ez világos képet ad a szükséges erőforrásokról és a modern hardverek lehetséges teljesítményéről.A kód és a modell elérhető a következő címen: https://github.com/Francis-Rings/StableAvatar
A csapat előrevetíti, hogy a rendszerhez kapcsolódó LoRA/finomhangolás lesz folyamatban. Ez megnyitja az utat az avatár és arckifejezésének további testreszabása előtt., ahogyan statikus képekben is tesszük, de koherens videószekvenciákban rögzítve az identitást.
Közvetlen válaszok a három fő kérdésre

1) Létrehozhatok konzisztens avatarokat közvetlenül a ComfyUI-ban, csupán egy referenciaképpel? Igen, IP-Adapter (FaceID) vagy InstantID használatával, robusztus folyamattal, szabályozott zajszűréssel és fix kezdőértékkel. A fotónak tisztának és frontálisnak kell lennie; egyetlen referenciával a szélsőséges variációknak vannak határai, de portrék és mérsékelt változtatások esetén nagyon jól működik.
2) Finomhangolást vagy beágyazást érdemesebb megfontolni? Ha maximális robusztusságot szeretnél elérni több jelenetben, akkor egy könnyű LoRA téma a legjobb választás. jobb erőfeszítés/eredmény arányA beágyazások (szöveges inverzió) könnyebbek, de kevesebb árnyalatot rögzítenek. Teljes finomhangolásra ritkán van szükség, kivéve a nagyon speciális produkciókat.
3) Mi lenne az ajánlott csomópont-konfiguráció vagy technika a ComfyUI-ban? Checkpoint + VAE + CLIP szövegkódolás (pos/neg) + KSampler (DPM++ 2M Karras, 24–32 lépés, CFG 5–7) + IP-Adapter/InstantID + ControlNet (pose/deptity a jelenettől függően). Töltsd fel a vizsgált személy LoRA-ját 0.6–1.0 súllyal és csökkentse egy kicsit az IP-adapter teljesítményét, hogy kiegészítsék egymást.
4) Mit jelent a stabil diffúzió, és mire jó? Ebben a cikkben még többet elárulunk.
Ne feledd, hogy az /r/StableDiffusion és a ComfyUI közösségek nyílt helyek, ahol megoszthatsz példákat, visszajelzést kérhetsz és új trükköket fedezhetsz fel. Tartsd a tartalmaidat rövid időre elérhetővé, kerüld a fizetős streamek népszerűsítését, és légy óvatos a hangvétellel azokkal, akik most kezdik.; mindegyikük között a szint nagyon gyorsan emelkedik.
Egy jó kiindulóponttal (IP-adapter/azonnali azonosítás), fix értékkel, egyértelmű promptokkal és zajszűréssel mostantól következetes portrékat készíthet a beállítások, a gesztusok és a megvilágítás módosításával. Ha egy LoRA-t 10–30 különböző fotóval is betanítasz, a hasonlóság jelentősen megnő., és gyakorlással a ControlNet és az utófeldolgozás finomhangolásával még nagy felbontásban is szilárd eredményeket kaphat. Azok számára, akik tovább szeretnék vinni a dolgokat, a StableAvatar megmutatja, hogy ugyanez a konzisztens identitás elve alkalmazható a megfelelő erőforrásokkal hangvezérelt videókra is.
Kiskora óta szenvedélyes a technológia iránt. Szeretek naprakész lenni a szektorban, és mindenekelőtt azt kommunikálni. Ezért foglalkozom évek óta a technológiai és videojáték-weboldalak kommunikációjával. Androidról, Windowsról, MacOS-ról, iOS-ről, Nintendóról vagy bármilyen más kapcsolódó témáról írok, ami eszembe jut.