Kaip sukurti tikroviškus avatarus naudojant „Stable Diffusion“ ir „ComfyUI“

Paskutiniai pakeitimai: 21/10/2025

  • „IP-Adapter“ / „InstantID“ ir „LoRA“ yra patikimiausias derinys tapatybei nustatyti, kai yra skirtingos pozos, apšvietimo ir fono savybės.
  • Triukšmo mažinimo, CFG ir sėklos valdymas yra labai svarbus norint išlaikyti veido nuoseklumą tarp kadrų.
  • Viena nuotrauka yra tinkama, tačiau „LoRA“ su 10–30 vaizdų labai padidina nuoseklumą.
  • /r/StableDiffusion ir ComfyUI bendruomenės siūlo transliacijas ir palaikymą pagal SFW taisykles ir draugišką elgesį.

Kaip sukurti tikroviškus avatarus naudojant „Stable Diffusion“ ir „ComfyUI“

¿Kaip sukurti tikroviškus avatarus naudojant „Stable Diffusion“ ir „ComfyUI“? Sukurti realistišką ir nuoseklų avatarą naudojant „Stable Diffusion“ ir „ComfyUI“ yra vis labiau pasiekiamas tikslas, tačiau tam reikia šiek tiek technikos ir gero sprendimo. Svarbiausia išsaugoti tapatybę (veido bruožus, šukuoseną, struktūrą), kartu keičiant foną, apšvietimą ir išraiškas., kuriam dažnai reikia darbo eigos, konkrečių mazgų ir kartais pagalbinių modelių, tokių kaip LoRA arba įterpimai, derinio.

Daugelis vartotojų susiduria su ta pačia problema: su etaloniniu vaizdu jie pasiekia gerą panašumą viename kadre, bet kitame pasikeičia šukuosena ar akių spalva. Esate girdėję apie įterpimą (teksto inversiją), LoRA ir „ControlNet“, todėl normalu susimąstyti, kuris metodas jums tinkamiausias.Be to, toliau atsiranda tokių parinkčių kaip „IP-Adapter“ ir „InstantID“, kurios pagerina veido nuoseklumą. Šiame straipsnyje aptarsime dažniausiai užduodamus klausimus: ar pakanka vienos nuorodos, ar geriau konfigūruoti LoRA, ar naudoti įterpimus, ir kurie mazgai / konfigūracijos geriausiai veikia „ComfyUI“, kad būtų pasiekti stabilūs avatarai.

Ką turime omenyje sakydami „nuoseklumas“ avatare?

Kalbėdami apie nuoseklumą, turime omenyje, kad veikėjas išlieka atpažįstamas keliuose paveikslėliuose. Kalbama apie esminių bruožų (veido, akių, nosies, lūpų, plaukų formos) ir subjekto „jausmo“ išlaikymą. net jei žaidžiame su poza, burnos atverimu, ryškia šviesa ar sudėtingais fonais.

Šis darnumas atsiranda dėl tapatybės „įtvirtinimo“ kartos procese. Jei modelis negauna pakankamai signalų apie tai, kas yra tiriamasis, jis bus linkęs improvizuoti ir nukrypti nuo temos.; todėl prasminga naudoti vizualines nuorodas, tapatybės modulius arba nedidelius pasirinktinius pakeitimus (LoRA, įterpimus), kad būtų sustiprintas panašumas.

Be to, būtina atskirti, kurie elementai gali keistis nepažeisdami tapatybės, o kurie ne. Fonas, drabužiai, išraiška ir apšvietimo schema yra saugūs kintamiejiAkių forma, rainelės spalva, plaukų linija ir kaulų struktūra – ne tiek daug. Šios ribos tikslus derinimas yra didelė darbo dalis.

Ar įmanoma tai pasiekti su vienu paveikslėliu „ComfyUI“?

Trumpas atsakymas yra: taip, su niuansais. Vienos nuotraukos gali pakakti, jei naudojate veido atpažinimo metodus, tokius kaip „IP-Adapter“ („FaceID“) arba „InstantID“, ir kontroliuojate triukšmo lygį. img2img arba kondicionavimo stiprumas. Žinoma, nuotrauka turi būti aiški, gerai apšviesta ir frontalinė arba pusiau profilio, su aiškiais bruožais.

Naudojant „ComfyUI“, tipiškas būdas yra sujungti veido atskaitos mazgą su aiškiai apibrėžta raginimu ir stabiliu pavyzdžių rinkikliu. Vizualinis sąlygojimas „verčia“ modelį atsižvelgti į savybes, o raginimas diktuoja stilių, foną ar apšvietimą.Jei jums reikia daug pozų variacijų, pasikliaukite „ControlNet“ („OpenPose“), kad galėtumėte valdyti pozą neiškraipydami veido.

Tačiau vienas vaizdas turi savo ribas: jis gali „per daug išmokti“ konkrečią tos nuotraukos išraišką ar apšvietimą. Jei ieškote maksimalaus tikslumo ir universalumo, 6–20 etaloninių vaizdų pagerina apibendrinimą., ir, jei reikia, lengvas, jūsų nuotraukoms pritaikytas LoRA efektas užtikrina puikų kadrų nuoseklumą.

Įterpimai, LoRA arba tikslus derinimas: kaip išsirinkti

Yra trys pagrindiniai tapatybės pritaikymo būdai: įterpimai (teksto inversija), LoRA ir visiškas tikslus derinimas. Įterpimai išmoko CLIP naują prieigos raktą, kuris reprezentuoja jūsų objektą., su nedideliu MB ir gana greitu mokymu, tačiau jo galia yra ribota, palyginti su LoRA.

Išskirtinis turinys – spustelėkite čia  „Switch 2“ draudimai naudotiems žaidimams ir MIG kasetėms: kas vyksta?

Kita vertus, gerai apmokyta LoRA į modelio sluoksnius įterpia pajėgumus, kad būtų galima tiksliau užfiksuoti elementus. Su 10–30 įvairių portretų (kampais, išraiškomis, apšvietimu) ir vidutiniu treniravimu galima pasiekti labai aukštą nuoseklumą. SD 1.5 arba SDXL formatu, išlaikant nedidelį failo dydį (dešimtys MB). Tai optimalus dydis daugumai.

Pilnas kontrolinio taško derinimas skirtas tik labai specifinėms produkcijoms. Tai brangu, reikalauja daug duomenų ir perrašo bendrą modelio stilių.Praktiškai asmeniniams avatarams paprastai pakanka lengvos LoRA sistemos arba gero veido atpažinimo kanalo.

Rekomenduojami mazgai ir blokai „ComfyUI“

Tipiškas nuoseklumo grafikas apjungia bazinį kontrolinį tašką, teksto kodavimo įrenginius, stabilų pavyzdžių rinkiklį ir tapatybės / valdymo modulius. Tai yra naudingiausi blokai ir kaip jie žaidžia kartu:

  • Kontrolinis punktas + VAEĮkelkite SD 1.5 arba SDXL (priklausomai nuo estetinių ir išteklių pageidavimų). SDXL užtikrina detalumą, bet reikalauja daugiau VRAM.
  • CLIP teksto kodavimas (teigiamas/neigiamas)Aiškios užuominos, kuriose būtų nurodytas temos raktas (jei naudojama LoRA arba įterpimas) ir stiliaus / scenos instrukcijos.
  • KSamplerDPM++ 2M „Karras“ stabilus mėginių ėmiklis, 20–35 žingsniai, CFG 4–7 SDXL terpėje (6–9 SD1.5 terpėje), fiksuota sėkla atkuriamumui užtikrinti.
  • IP adapteris / „InstantID“: kondicionavimas pagal veidą norint išlaikyti savybes; koreguokite stiprumą (0.6–0.9) pagal nukrypimus.
  • ControlNet (OpenPose/Depth/Canny): Valdo pozą, tūrį ir kontūrą, o tapatybė išlieka fiksuota IP adapterio/LoRA.
  • LoRA krautuvasSuteikite savo subjekto LoRA svorius nuo 0.6 iki 1.0; jei tai iškreipia stilių, sumažinkite svorį arba sumažinkite CFG.
  • Img2Img / Plytelių klojimasŠvelniems variantams naudokite triukšmo mažinimo vertę 0.2–0.45; didesnės vertės sunaikina tapatybę.

Remiantis tuo, stabiliausias derinys paprastai yra: Tema „LoRA“ + „FaceID“ IP adapteris + „Pose ControlNet“„LoRA“ apibrėžia charakterį, „IP-Adapter“ ištaiso smulkius bruožus, o „ControlNet“ suteikia laisvę keisti kadravimą ir laikyseną.

Pagrindinis žingsnis po žingsnio procesas („ComfyUI“)

Norėdami pradėti, galite sukurti minimalų, tvirtą srautą. Tai jums pravers, nesvarbu, ar pradedate nuo gryno teksto, ar šiek tiek pakeičiate vaizdą.:

  1. Apkrovos kontrolinis taškas (SDXL arba SD1.5) ir Įkelti VAE.
  2. CLIP teksto kodavimas (teigiamas)Apibūdinkite objektą jo simboliu arba, jei nėra LoRA, bruožais: „jaunuolis suaugęs žmogus, trumpi rudi plaukai, žalios akys, ovalus veidas“ + pageidaujamas stilius („kinematografinis portretas, švelnus apšvietimas“).
  3. CLIP teksto kodavimas (neigiamas): apima artefaktus, kurių reikia vengti („neryškūs, deformuoti, papildomi pirštai, nevienodos akys, neteisinga plaukų spalva“).
  4. IP adapteris / InstantID: Prijunkite atskaitos vaizdą ir nustatykite pradinį stiprumą į 0.75 (koreguokite nuo 0.6 iki 0.9). Jei naudojate tik vieną nuotrauką, apkirpkite ją pagal veidą ir užtikrinkite tinkamą ekspoziciją.
  5. „ControlNet“ poza (nebūtina): apibrėžkite pozą, jei norite skirtingų išraiškų / gestų neprarandant tapatybės.
  6. KSamplerDPM++ 2M Karras, 28–32 žingsniai, CFG 5.5–7 (SDXL: linksta prie šiek tiek mažesnio CFG). Fiksuota palyginamųjų elementų sėkla.
  7. VAE dekodavimas ir, jei reikia, aukštesnio lygio (4x-UltraSharp, ESRGAN arba SDXL Refiner smulkioms detalėms).

Jei jau turite Subjekto LoRA, pridėkite jį prieš mėginių ėmiklį, kurio svoris yra 0.8 (pradėkite nuo mažo ir didinkite, jei trūksta panašumo). Naudodami tvirtą LoRA, galite sumažinti IP adapterio stiprumą., leisdamas LoRA tvarkyti tapatybę ir IP adapteriui tiesiog „teisingai“ atlikti.

Parametrai, kurie daro skirtumą

Derinant nuoseklumą, lemiami yra maži parametrų pokyčiai. Valdymo stiprumo, triukšmo slopinimo ir sėklų valdymas suteikia tikrą stabilumą:

  • Triukšmo mažinimas img2img faile0.2–0.45 išlaiko ypatybes ir leidžia keisti apšvietimą / foną. Nuo 0.55 tapatybė išnyksta.
  • CFG skalėJei vaizdas yra „priverstinis“ ir iškraipytas, sumažinkite CFG; jei modelis ignoruoja jūsų raginimą, padidinkite jį puse taško.
  • Mėginių ėmiklis / žingsniaiDPM++ 2M Karras arba SDE Karras su 24–32 žingsniais paprastai duoda nuoseklius rezultatus be artefaktų.
  • Sėklos: Nustato palyginimų pradinę reikšmę. Jei norite nedidelio variacijos lygio, naudokite 0.1–0.3 stiprumo „variacijos pradinę reikšmę“.
  • Nutarimas768–1024 dydžiai ilgesnėje pusėje išryškina smulkius veido bruožus. SDXL dydyje 1024 yra idealus pasirinkimas detalėms.
Išskirtinis turinys – spustelėkite čia  Kas yra SIM centras ir kaip jį naudoti su namų lenktynių simuliatoriumi?

Jei pasikeičia plaukų ar akių spalva, neiginyje pridėkite „neteisinga plaukų spalva, spalvos pasikeitimas, nevienoda akių spalva“ ir pakartokite. Tai taip pat padeda kiekviename kadre įterpti spalvą kaip teigiamą užuominą. kad modelis nebūtų „pamirštas“.

Išraiškos, fonai ir apšvietimas neprarandant identiteto

Kintamoms išraiškoms (šypsena, nuostaba, atvira burna) pasikliaukite ControlNet „OpenPose“ arba, dar geriau, veido orientyrų išankstinis apdorotojas, kai jis bus prieinamas. Valdant paviršiaus geometriją, sumažinamos deformacijos ir neleidžiama modeliui išrasti savybių..

Apšvietime aiškiai suformuluokite schemą: „švelnioji dėžutė iš kairės“, „apvado šviesa“, „auksinė valanda“. Naudojant aplinkos nuorodas (mentalinį HDRI, studijos aprašymus), šešėliai valdomi nepaveikiant tapatybėsJei odos atspalvis pasikeičia, pridėkite „odos atspalvio nuoseklumą“ arba nustatykite spalvos temperatūrą raginime.

Sudėtingiems fonams naudokite „ControlNet Depth“ arba „Canny“ mažu intensyvumu (0.35–0.55) ir aprašykite aplinką raginime. IP adapteris / LoRA turėtų turėti daugiau svorio nei foninis „ControlNet“ kad veidas nebūtų užterštas svetimais kontūrais.

Kai norite pakeisti savo įvaizdį (drabužius / aksesuarus), įveskite juos tekstu ir sušvelninkite LoRA svorį, jei jis visada „tempia“ tą patį aprangą. LoRA gali nepaisyti estetinių detalių; subalansuoti svorius, kad būtų siunčiami nauji raginimai..

Mokytis ar nemokyti: praktinės LoRA / integravimo gairės

Jei veido užuominos nepakanka, apsvarstykite subjekto LoRA. Naudokite 10–30 nuotraukų su įvairiais kampais, išraiškomis, fonu ir apšvietimu (tačiau veidas turi būti švarus ir ryškus).Apkirpkite trumpąją kraštinę iki 512–768 pikselių, subalansuokite vyrišką ir moterišką spalvas, jei jūsų bazė yra universali, ir atkreipkite dėmesį į žetono pavadinimą.

Pagrindiniai mokymo parametrai (SD1.5): rangas 4–8, alfa lygus rangui, mokymosi greitis nuo 1e-4 iki 5e-5, 2–6 žingsnių su mažomis partijomis. Venkite pervargimo; jei matote vienos nuotraukos „kloną“, sutrumpinkite žingsnių skaičių arba paįvairinkite.SDXL formatu naudokite didesnę skiriamąją gebą ir naudokite daugiau vaizdo atminties.

Įterpimams (teksto inversijai) gali pakakti 3–10 nuotraukų, tačiau stabilumui užtikrinti reikės daugiau veiksmų. Įdėklai mažiau veikia bendrą estetiką ir sveria labai mažai., idealiai tinka, jei norite daugkartinio naudojimo prieigos rakto, nevaldant LoRA.

Kokybė, mastelio keitimas ir retušavimas

Sugeneravus pagrindinį vaizdą, veido detalėms paryškinti naudokite 2–4 kartų skalerį („ESRGAN“, 4 kartų „UltraSharp“) arba SDXL rafinatorių. Rafinuotojas gali pakoreguoti odos ir akių spalvas nesukeldamas artefaktų, ypač jei pasiliksite sėklą ir tą pačią užklausą.

Norėdami pataisyti konkrečias akis / burną, galite naudoti „ADetailer“ arba veido atkūrimo mazgus. Ištaisykite vietines klaidas, išsaugodami likusią kompozicijos dalįVenkite griežtų filtrų, kurie „plastifikuoja“ odą; vietoj to tiksliai sureguliuokite ryškumą ir mikrokontrasto nustatymus.

Įprastų problemų sprendimas

Jei šukuosena tarp fotografavimų keičiasi, problema paprastai yra per didelis triukšmas arba dviprasmiški raginimai. Sumažinkite triukšmo slopinimą / CFG, sustiprinkite „trumpus rudus plaukus“ arba kiekviename raginime nurodykite konkrečią šukuosenąJei naudojate LoRA, padidinkite jo svorį 0.1.

Jei akių spalva skiriasi, pridėkite „žalios akys, pastovi akių spalva“ ir neigiamoje formoje įrašykite „nevienoda akių spalva, heterochromija“. IP adapteris / „InstantID“ taip pat padeda nustatyti rainelės detales kai nuoroda labai aiški.

Jei stilius „valgo“ tapatybę (pvz., stiprus stiliaus LoRA), sumažinkite jo svorį arba padidinkite konkretaus LoRA svorį. Svorių balansavimas yra būtinas siekiant neprarasti panašumo.Kitas variantas – sumažinti CFG, kad modelis taip neforsuotų stiliaus.

Jei variacijos minimalios, šiek tiek padidinkite triukšmo slopinimą (0.05–0.1) arba naudokite variacijos sėklą. Nedidelis atsitiktinumo spaudimas sukuria įvairovę nepažeidžiant funkcijų.

Bendruomenės ir standartai: kur mokytis ir dalytis

„Reddit“ platformoje esanti „Stable Diffusion“ bendruomenė yra didžiulė ir labai aktyvi. /r/StableDiffusion galite skelbti meno kūrinius, užduoti klausimus, diskutuoti ir prisidėti prie naujų atvirų technikų.Tai nėra oficialus forumas, tačiau jo tikslas – remti atvirojo kodo ekosistemą ir padėti jums tobulėti.

Išskirtinis turinys – spustelėkite čia  Išsamus geriausių „Dropbox“ alternatyvų, skirtų failams saugoti ir tvarkyti debesyje, vadovas.

„ComfyUI“ subredditas, taip pat bendruomenės / neoficialus, yra puiki vieta dalytis darbo eigomis, klausimais ir patarimais. Prašome palikti įrašus atvirus, nereklamuoti mokamų transliacijų, laikytis temos ir, svarbiausia, būti maloniems.Nepaisymas kitų žmonių rezultatų užtrauks blokavimą, todėl rekomenduojama neužgriozdinti savo sklaidos kanalo per daug įrašų iš eilės.

Gijų, prie kurių pridedami grafikai ir parametrai, tyrinėjimas yra puikus būdas paspartinti mokymąsi. Peržiūrint etalonus su fiksuotomis sėklomis, LoRA svoriais ir etaloniniais vaizdais, matyti, kurie nustatymai iš tikrųjų veikia. praktikoje.

Nuo nuotraukos iki vaizdo įrašo su garsu: „StableAvatar“

Jei norite žengti dar vieną žingsnį ir turėti avatarą, kuris „kalba“ naudodamas garsą, peržiūrėkite „StableAvatar“. Tai sistema, skirta kurti aukštos kokybės, laike nuoseklius, potencialiai neriboto ilgio „talking head“ vaizdo įrašus., pradedant nuo garso takelio.

Pasak autorių, 5 sekundžių trukmės 480x832 raiškos ir 25 kadrų per sekundę dažnio klipui baziniam modeliui su –GPU_memory_mode=»model_full_load» reikia maždaug 18 GB vaizdo atminties, o vaizdo įrašas su 4090 GPU baigiamas maždaug per 3 minutes. Tai suteikia aiškų vaizdą apie reikalingus išteklius ir galimą šiuolaikinės įrangos našumą.Kodas ir modelis pateikiami adresu: https://github.com/Francis-Rings/StableAvatar

Komanda teigia, kad sistemai bus taikomi LoRA / tikslūs derinimo nustatymai. Tai atveria duris tolesniam avataro ir jo veido stiliaus pritaikymui., įtvirtindami tapatybę taip, kaip tai darome statiniuose vaizduose, bet nuosekliose vaizdo sekose.

Tiesioginiai atsakymai į tris pagrindinius klausimus

Kalifornijos IA įstatymai

1) Ar galiu kurti nuoseklius avatarus tiesiogiai „ComfyUI“ sistemoje, naudodamas tik vieną paveikslėlį? Taip, naudodamas „IP-Adapter“ („FaceID“) arba „InstantID“ ir užtikrindamas patikimą srautą su kontroliuojamu triukšmo mažinimu ir fiksuota pradine verte. Nuotrauka turi būti aiški ir frontalinė; su viena nuoroda yra ribos ekstremalioms variacijoms, bet portretams ir nedideliems pokyčiams tai labai gerai veikia.

2) Ar turėčiau apsvarstyti tikslų derinimą ar įterpimą? Jei ieškote maksimalaus patikimumo daugelyje scenų, geriausias pasirinkimas yra lengvas LoRA objektas. geresnis pastangų ir rezultato santykisĮterpimai (teksto inversija) yra lengvesni, bet perteikia mažiau niuansų. Visiškas tikslus derinimas retai reikalingas, išskyrus labai specifinius kūrinius.

3) Kokia būtų rekomenduojama mazgo konfigūracija arba metodai „ComfyUI“? „Checkpoint“ + VAE + CLIP teksto kodavimas (pos/neg) + KSampler (DPM++ 2M Karras, 24–32 žingsniai, CFG 5–7) + IP-Adapter/InstantID + ControlNet (poza/gylis priklauso nuo scenos). Apkrauti tiriamojo LoRA su svoriu 0.6–1.0 ir šiek tiek sumažinkite IP adapterio galią, kad abu papildytų vienas kitą.

4) Ką reiškia stabili difuzija ir kam ji skirta? Šiame straipsnyje papasakosime dar daugiau.

Nepamirškite, kad /r/StableDiffusion ir ComfyUI bendruomenės yra atviros erdvės, kuriose galite dalytis pavyzdžiais, prašyti atsiliepimų ir atrasti naujų gudrybių. Tegul jūsų turinys būna trumpas, venkite reklamuoti mokamas transliacijas ir atsargiai rinkitės toną su tais, kurie tik pradeda savo veiklą.; tarp jų visų lygis kyla labai greitai.

Turėdami gerą pradinį tašką (IP adapterį / momentinį ID), fiksuotą pradinę reikšmę, aiškius raginimus ir triukšmo šalinimo valdymą, dabar galite gauti nuoseklius portretus keisdami nustatymus, gestus ir apšvietimą. Jei taip pat apmokysite LoRA su 10–30 skirtingų nuotraukų, panašumas žymiai padidės., o pasipraktikavę ir tiksliai suderinę „ControlNet“ bei papildomą apdorojimą, gausite patikimus rezultatus net ir esant didelei raiškai. Tiems, kurie nori žengti toliau, „StableAvatar“ parodo, kad ta pati nuoseklaus tapatumo idėja, naudojant tinkamus išteklius, gali būti taikoma ir garsu paremtam vaizdo įrašui.