Barqaror diffuziya va ComfyUI yordamida haqiqiy avatarlarni qanday yaratish mumkin

Oxirgi yangilanish: 21/10/2025

  • IP-Adapter/InstantID va LoRA poza, yorug'lik va fondagi o'zgarishlar bilan shaxsni aniqlash uchun eng mustahkam kombinatsiyadir.
  • Denoise, CFG va urug'ni nazorat qilish suratlar orasidagi yuzning mustahkamligini saqlashda barcha farqlarni keltirib chiqaradi.
  • Bitta fotosurat hayotiy, ammo 10–30 ta rasmga ega LoRA barqarorlikni sezilarli darajada oshiradi.
  • /r/StableDiffusion va ComfyUI hamjamiyatlari SFW qoidalari va do'stona munosabatda oqimlar va yordamni taklif qiladi.

Barqaror diffuziya + ComfyUI yordamida haqiqiy avatarlarni qanday yaratish mumkin

¿Barqaror diffuziya + ComfyUI yordamida haqiqiy avatarlarni qanday yaratish mumkin? Barqaror diffuziya va ComfyUI yordamida real va izchil avatar yaratish borgan sari erishiladigan maqsaddir, ammo bu biroz texnika va yaxshi mulohaza yuritishni talab qiladi. Asosiysi, o'ziga xoslikni (yuz xususiyatlari, soch turmagi, tuzilishi) o'zgaruvchan fon, yorug'lik va ifodalarni saqlab qolishdir., bu ko'pincha ish oqimi, muayyan tugunlar va ba'zan LoRA yoki o'rnatish kabi yordamchi modellarning kombinatsiyasini talab qiladi.

Ko'pgina foydalanuvchilar bir xil muammoga duch kelishadi: mos yozuvlar tasviri bilan ular bir tortishishda yaxshi o'xshashlikka erishadilar, ammo keyingisida soch turmagi yoki ko'z rangi o'zgaradi. Siz o'rnatish (matnni o'zgartirish), LoRA va ControlNet haqida eshitgansiz va qaysi yondashuv sizga mos kelishini hayron qilish odatiy holdir.; Bundan tashqari, IP-Adapter va InstantID kabi variantlar yuzning mustahkamligini yaxshilash uchun paydo bo'lishda davom etmoqda. Ushbu maqolada biz eng keng tarqalgan savollarni ko'rib chiqamiz: bitta havola yetarlimi, LoRA-ni sozlash yoki o'rnatishdan foydalanish yaxshiroqmi va barqaror avatarlarga erishish uchun ComfyUI-da qaysi tugunlar/konfiguratsiyalar eng yaxshi ishlaydi.

Avatardagi izchillik deganda nimani tushunamiz?

Biz izchillik haqida gapirganda, biz belgi bir nechta tasvirlar bo'ylab taniqli bo'lib qolishini nazarda tutamiz. Bu mavzuning asosiy xususiyatlarini (yuz, ko'zlar, burun, lablar, sochlarning shakli) va "hissiyot" ni saqlab qolish haqida. Agar biz poza, og'iz ochish, qattiq yorug'lik yoki murakkab fon bilan o'ynasak ham.

Bu uyg'unlik avlod jarayonidagi o'ziga xoslikni "ankorlash" dan kelib chiqadi. Agar model sub'ekt kimligi to'g'risida etarli signal olmasa, u improvizatsiyaga va chetga chiqishga moyil bo'ladi.; shuning uchun o'xshashlikni mustahkamlash uchun vizual havolalar, identifikatsiya modullari yoki kichik moslashtirilgan sozlashlardan (LoRA, o'rnatish) foydalanish mantiqiy.

Bundan tashqari, qaysi elementlar o'ziga xoslikni buzmasdan o'zgarishi mumkinligini va qaysi biri o'zgarmasligini ajratish kerak. Orqa fon, kiyim-kechak, ifoda va yorug'lik sxemasi xavfsiz o'zgaruvchilardir; ko'z shakli, iris rangi, soch chizig'i va suyak tuzilishi, unchalik emas. Bu chegarani aniq sozlash ishning katta qismidir.

ComfyUI-da bitta rasm bilan bunga erishish mumkinmi?

Qisqa javob: ha, nuanslar bilan. Agar siz IP-Adapter (FaceID) yoki InstantID kabi yuzni ko'rsatish usullaridan foydalansangiz va shovqin darajasini nazorat qilsangiz, bitta fotosurat etarli bo'lishi mumkin. img2img-da yoki konditsionerning kuchi. Albatta, fotosurat aniq, yaxshi yoritilgan va frontal yoki yarim profilli, aniq xususiyatlarga ega bo'lishi kerak.

ComfyUI bilan odatiy yondashuv yuz mos yozuvlar tugunini aniq belgilangan taklif va barqaror namuna oluvchi bilan birlashtirishdir. Vizual konditsioner xususiyatlarni hurmat qilish uchun modelni "itaradi", so'rov esa uslub, fon yoki yorug'likni belgilaydiAgar sizga juda ko'p pozani o'zgartirish kerak bo'lsa, yuzni buzmasdan pozani boshqarish uchun ControlNet (OpenPose) ga ishoning.

Biroq, bitta rasmning o'z chegaralari bor: u ushbu fotosuratdagi o'ziga xos ifoda yoki yorug'likni "ortiqcha o'rganishi" mumkin. Agar siz maksimal aniqlik va ko'p qirralilikni qidirsangiz, 6-20 ta mos yozuvlar tasvirlari umumlashtirishni yaxshilaydi., va agar kerak bo'lsa, sizning fotosuratlaringizga o'rgatilgan engil LoRA suratga olishdan tortib olishgacha yuqori barqarorlikni ta'minlaydi.

O'rnatish, LoRA yoki nozik sozlash: qanday tanlash kerak

Identifikatsiyani sozlashning uchta asosiy yo'li mavjud: o'rnatish (matnni o'zgartirish), LoRA va to'liq sozlash. O'rnatishlar CLIP-ga mavzuingizni ifodalovchi yangi tokenni o'rgatadi., bir necha MB va juda tez o'qitish bilan, lekin uning kuchi LoRA bilan solishtirganda cheklangan.

Eksklyuziv tarkib - Bu yerga bosing  Instagram mikrofoningizni tinglayaptimi? Haqiqatan ham nima bo'lyapti?

Yaxshi o'qitilgan LoRA, aksincha, xususiyatlarni aniqroq suratga olish uchun model qatlamlariga sig'imni kiritadi. 10-30 xil portretlar (burchaklar, ifodalar, yorug'lik) va o'rtacha mashg'ulotlar bilan siz juda yuqori izchillikka erishishingiz mumkin. SD 1.5 yoki SDXL da, kichik fayl hajmini (o'nlab MB) saqlagan holda. Bu ko'pchilik uchun yoqimli joy.

Tekshirish punktining to'liq sozlanishi juda aniq ishlab chiqarishlar uchun ajratilgan. Bu qimmat, ma'lumotlarni ko'p talab qiladi va modelning umumiy uslubini yozadi.Amalda, shaxsiy avatarlar uchun, odatda, engil LoRA yoki yuzga mos keladigan yaxshi quvur liniyasi etarli.

ComfyUI-da tavsiya etilgan tugunlar va bloklar

Moslik uchun odatiy grafik asosiy nazorat nuqtasini, matn kodlovchilarini, barqaror namuna oluvchini va identifikatsiya/boshqaruv modullarini birlashtiradi. Bu eng foydali bloklar va ular birgalikda qanday o'ynaydi:

  • Tekshirish punkti + VAE: SD 1.5 yoki SDXL ni yuklang (estetik va manba afzalliklaringizga qarab). SDXL batafsil ma'lumot beradi, lekin ko'proq VRAM talab qiladi.
  • CLIP matn kodlash (ijobiy/salbiy): Mavzu belgisi (agar LoRA dan foydalanilsa yoki oʻrnatilgan boʻlsa) va uslub/sahna koʻrsatmalarini eslatuvchi soʻrovlarni oʻchirish.
  • KSampler: DPM++ 2M Karras barqaror namuna oluvchi, 20–35 bosqichli, SDXL da CFG 4–7 (SD1.5 da 6–9), takrorlanuvchanlik uchun qattiq urugʻ.
  • IP-adapter / InstantID: yuzga qarab konditsionerlik xususiyatlarni saqlab qolish; og'ishlarga ko'ra quvvatni (0.6-0.9) sozlang.
  • ControlNet (OpenPose/Depth/Canny): Identifikatsiya IP-Adapter/LoRA tomonidan mustahkamlangan holda poza, tovush va konturni boshqaradi.
  • LoRA yuklagich: 0.6-1.0 og'irlikdagi ob'ektingizning LoRA'sini kiriting; agar u uslubni buzsa, vaznni kamaytiring yoki CFG hajmini pasaytiring.
  • Img2Img / Tiling: Yumshoq o'zgarishlar uchun denoise 0.2-0.45 dan foydalaning; yuqori qiymatlar shaxsiyatni yo'q qiladi.

Shu asosda, eng barqaror kombinatsiya odatda: Mavzu LoRA + FaceID IP-adapteri + Pose ControlNetLoRA xarakterni aniqlaydi, IP-Adapter nozik xususiyatlarni to'g'rilaydi va ControlNet sizga ramka va turishingizni o'zgartirish erkinligini beradi.

Asosiy bosqichma-bosqich oqim (ComfyUI)

Boshlash uchun siz minimal, mustahkam oqimni qurishingiz mumkin. Sof matndan boshlaysizmi yoki rasmdan ozgina o'zgarishlar qilsangiz, u sizga xizmat qiladi.:

  1. Tekshirish nuqtasini yuklash (SDXL yoki SD1.5) va VAE ni yuklang.
  2. CLIP matn kodlash (ijobiy): Mavzuni o'z belgisi bilan yoki agar LoRA bo'lmasa, quyidagi xususiyatlar bilan tavsiflang: «yosh, kalta jigarrang sochlar, yashil ko'zlar, oval yuz» + kerakli uslub («kino portreti, yumshoq tugmacha yorug'ligi»).
  3. CLIP matn kodlash (salbiy): oldini olish uchun artefaktlarni o'z ichiga oladi ("loyqa, deformatsiyalangan, qo'shimcha barmoqlar, mos kelmaydigan ko'zlar, noto'g'ri soch rangi").
  4. IP adapter / InstantID: Malumot tasvirini ulang va dastlabki quvvatni 0.75 ga o'rnating (0.6–0.9 ni sozlang). Agar siz faqat bitta fotosuratdan foydalanayotgan bo'lsangiz, uni yuzga kesib oling va to'g'ri ekspozitsiyani ta'minlang.
  5. ControlNet pozasi (ixtiyoriy): identifikatsiyani yo'qotmasdan turli ifodalar/imo-ishoralar kerak bo'lsa, pozani belgilang.
  6. KSampler: DPM++ 2M Karras, 28–32 qadam, CFG 5.5–7 (SDXL: biroz pastroq CFG tomon intiladi). Taqqoslanadiganlar uchun sobit urug'.
  7. VAE dekodlash va agar kerak bo'lsa, a yuksaltiruvchi (4x-UltraSharp, ESRGAN yoki nozik tafsilotlar uchun SDXL Refiner).

Agar sizda allaqachon bo'lsa Mavzuning LoRA, og'irligi 0.8 bo'lgan namuna oluvchidan oldin qo'shing (pastdan boshlang va agar o'xshashlik bo'lmasa, yuqoriga ko'taring). Qattiq LoRA yordamida siz IP-adapterning kuchini kamaytirishingiz mumkin, LoRA-ga identifikatsiyani boshqarishga ruxsat berish va IP-Adapterni shunchaki "to'g'rilash".

Farq qiladigan parametrlar

Moslashuvchanlikni sozlashda kichik parametr o'zgarishlari hal qiluvchi ahamiyatga ega. Konditsioner kuchini, denoise va urug'ni nazorat qilish sizga haqiqiy barqarorlikni beradi:

  • img2img da denoise: 0.2–0.45 xususiyatlarni saqlab turadi va turli yorug'lik/fon uchun ruxsat beradi. 0.55 dan identifikatsiya eriydi.
  • CFG shkalasiTasvir "majburiy" va buzilgan bo'lsa, CFG ni tushiring; agar model sizning so'rovingizga e'tibor bermasa, uni yarim ballga ko'taring.
  • Namuna oluvchi/qadamlar: 24–32 bosqichli DPM++ 2M Karras yoki SDE Karras odatda artefaktlarsiz izchil natijalar beradi.
  • urug ': Taqqoslash uchun urug'ni o'rnatadi. Engil o'zgarish uchun 0.1-0.3 kuchga ega "variatsiya urug'idan" foydalaning.
  • Ruxsat: Uzunroq tarafdagi 768–1024 nozik yuz xususiyatlarini yaxshilaydi. SDXL da 1024 tafsilot uchun yoqimli joy.
Eksklyuziv tarkib - Bu yerga bosing  Windows yangilanishlarini buzmasdan WinSxS papkasini qanday tozalash kerak

Agar soch yoki ko'z rangi o'zgarsa, salbiyga "noto'g'ri soch rangi, rangi o'zgarishi, mos kelmaydigan ko'z rangi" ni qo'shing va takrorlang. Bu, shuningdek, har bir kadrda ijobiy taklifning bir qismi sifatida rangni kiritishga yordam beradi. modelni "unutish" ning oldini olish uchun.

Shaxsni yo'qotmasdan ifodalar, fon va yorug'lik

O'zgaruvchan iboralar uchun (tabassum, ajablanish, ochiq og'iz) tayanib ko'ring ControlNet OpenPose yoki undan ham yaxshisi, u mavjud bo'lganda yuz belgilarining oldingi protsessoridir. Yuzning geometriyasini nazorat qilish deformatsiyalarni kamaytiradi va modelning xususiyatlarni ixtiro qilishiga to'sqinlik qiladi..

Yoritishda sxemani aniq shakllantiring: "chapdan softbox", "rim nuri", "oltin soat". Atrof-muhitga oid ma'lumotlardan foydalanish (aqliy HDRI, studiya tavsiflari) shaxsiyatga ta'sir qilmasdan soyalarni boshqaradi.Agar terining rangi o'zgargan bo'lsa, "teri rangining mustahkamligi" ni qo'shing yoki so'rovda rang haroratini o'rnating.

Murakkab fonlar uchun ControlNet Depth yoki Canny past quvvatda (0.35–0.55) foydalaning va so'rovda muhitni tasvirlab bering. IP-Adapter/LoRA orqa fon ControlNet-dan ko'ra ko'proq vaznga ega bo'lishi kerak yuzning begona konturlar bilan ifloslanmasligi uchun.

Tashqi ko'rinishingizni (kiyim/aksessuarlar) o'zgartirmoqchi bo'lsangiz, ularni matn sifatida kiriting va LoRA har doim bir xil kiyimni "tortib tursa" og'irligini yumshatib qo'ying. LoRAs estetik tafsilotlarni bekor qilishi mumkin; muvozanat vazni, shuning uchun yangi takliflar yuboriladi..

O'rgatish yoki o'rgatmaslik: LoRA/embeddings uchun amaliy ko'rsatmalar

Agar yuzga murojaat qilish etarli bo'lmasa, mavzuning LoRAsini ko'rib chiqing. Turli burchaklar, ifodalar, fon va yorug'lik bilan 10-30 ta fotosuratdan foydalaning (lekin yuzingizni toza va aniq saqlang).. Qisqa tomonni 512–768 pikselgacha kesib oling, agar sizning asosingiz umumiy bo'lsa, erkak/ayolni muvozanatlang va token nomiga e'tibor bering.

Yo'naltiruvchi o'quv parametrlari (SD1.5): 4–8 daraja, alfa darajaga teng, o'rganish tezligi 1e-4 dan 5e-5 gacha, kichik partiya bilan 2k–6k qadam. Haddan tashqari mashg'ulotlardan saqlaning; bitta fotosuratning "klonini" ko'rsangiz, qadamlarni kamaytiring yoki ko'proq xilma-xillikni qo'shing.. SDXL da yuqori ruxsatlardan foydalaning va ko'proq VRAMni oling.

O'rnatish uchun (matnni o'zgartirish) 3-10 ta fotosurat ishlashi mumkin, ammo barqarorlik uchun sizga ko'proq qadamlar kerak bo'ladi. O'rnatishlar umumiy estetikaga kamroq ta'sir qiladi va juda kam og'irlik qiladi., LoRA-ni boshqarmasdan qayta foydalanish mumkin bo'lgan tokenni istasangiz ideal.

Sifat, masshtablash va retush

Asosiy tasvir yaratilgandan so'ng, yuz tafsilotlari uchun 2–4x miqyosli (ESRGAN, 4x UltraSharp) yoki SDXL aniqlagichni qo'llang. Tozalashtiruvchi artefaktlarni kiritmasdan teri va ko'zlarni tuzatishi mumkin, ayniqsa, agar siz urug'ni va bir xil tezkorlikni saqlasangiz.

Muayyan ko'zlar/og'izlarni tuzatish uchun siz ADetailer yoki yuzni tiklash tugunlaridan foydalanishingiz mumkin. Kompozitsiyaning qolgan qismini saqlab qolgan holda mahalliy xatolarni tuzatingTerini "plastiklashtiradigan" qattiq filtrlardan saqlaning; Buning o'rniga, aniqlik va mikrokontrast sozlamalarini sozlang.

Umumiy muammolarni bartaraf etish

Agar soch turmagi qabullar orasida o'zgarsa, muammo odatda haddan tashqari shovqin yoki noaniq ko'rsatmalardir. Denoise/CFG darajasini pasaytiring, "qisqa jigarrang sochlar" ni kuchaytiring yoki har bir taklifda maxsus soch turmagini belgilang. Agar siz LoRA dan foydalansangiz, uning vaznini 0.1 ga oshiring.

Ko'zlarning rangi o'zgarsa, "yashil ko'zlar, izchil ko'z rangi" qo'shing va salbiyga "mos kelmaydigan ko'z rangi, heterokromiya" ni yozing. IP-Adapter/InstantID shuningdek, iris tafsilotlari bilan yordam beradi havola juda aniq bo'lsa.

Agar uslub o'ziga xoslikni "yeydi" (masalan, kuchli uslub LoRA), uning og'irligini kamaytiring yoki LoRA mavzusining og'irligini oshiring. O'xshashlikdan voz kechmaslik uchun og'irliklarni muvozanatlash juda muhimdir.Yana bir variant - CFG ni pasaytirish, shunda model uslubni juda ko'p majburlamaydi.

Agar o'zgarishlar minimal bo'lsa, denozni biroz oshiring (0.05-0.1) yoki o'zgaruvchan urug'lardan foydalaning. Tasodifiylikning biroz surishi xususiyatlarni buzmasdan xilma-xillikni yaratadi.

Jamiyatlar va standartlar: qayerdan o'rganish va baham ko'rish kerak

Reddit-dagi Barqaror Diffuziya hamjamiyati juda katta va juda faol. /r/StableDiffusion-da siz san'atni joylashtirishingiz, savollar berishingiz, muhokama qilishingiz va yangi ochiq usullarga hissa qo'shishingiz mumkin.; Bu rasmiy forum emas, lekin uning ruhi ochiq manba ekotizimini qo'llab-quvvatlash va sizni yaxshilashga yordam berishdir.

Eksklyuziv tarkib - Bu yerga bosing  Microsoft Paint bir marta bosish bilan Restyle: generativ uslublarni chiqaradi

ComfyUI subreddit hamjamiyat/norasmiy, ish jarayonlari, savollar va maslahatlarni almashish uchun ajoyib joy. Iltimos, SFW xabarlarini saqlang, pullik oqimlarni targ'ib qilmang, mavzuda qoling va eng muhimi, mehribon bo'ling.Boshqa odamlarning natijalariga e'tibor bermaslik taqiqga olib keladi va tasmangizni ketma-ket juda ko'p postlar bilan aralashtirib yubormaslik tavsiya etiladi.

Grafiklar va parametrlar biriktirilgan mavzularni o'rganish - o'rganishni tezlashtirishning ajoyib usuli. Ruxsat etilgan urug'lar, LoRA og'irliklari va mos yozuvlar tasvirlari bilan benchmarklarni ko'rish sizga qaysi sozlamalar aslida ishlayotganligini ko'rsatadi. amalda.

Suratdan audio bilan videoga: StableAvatar

Agar siz bir qadam oldinga borishni va audio yordamida "gapiradigan" avatarga ega bo'lishni istasangiz, StableAvatar-ni tekshiring. Bu potentsial cheksiz uzunlikdagi yuqori aniqlikdagi, vaqtinchalik izchil gapiradigan bosh videolarni yaratish uchun asosdir., audio trekdan boshlab.

Mualliflarining fikriga ko'ra, 5 soniyali 480x832 va 25 kadrli klip uchun –GPU_memory_mode=»model_full_load» bilan asosiy model taxminan 18 GB VRAM talab qiladi va 4090 GPUda taxminan 3 daqiqada tugaydi. Bu zarur resurslar va zamonaviy uskunada mumkin bo'lgan ishlash haqida aniq tasavvur beradi.. Kod va model quyidagi manzilda mavjud: https://github.com/Francis-Rings/StableAvatar

Jamoa tizimga xos LoRA/nozik sozlash bo'lishini aytadi. Bu avatar va uning yuz uslubini yanada moslashtirish uchun eshikni ochadi., biz statik tasvirlarda qilganimizdek, identifikatsiyani bog'lash, lekin izchil video ketma-ketlikda.

Uchta asosiy savolga to'g'ridan-to'g'ri javoblar

Kaliforniya IA qonunlari

1) To'g'ridan-to'g'ri ComfyUI-da faqat mos yozuvlar tasviri bilan izchil avatarlarni yarata olamanmi? Ha, IP-Adapter (FaceID) yoki InstantID va boshqariladigan denoise va sobit urug'li mustahkam oqimdan foydalanish. Surat aniq va frontal bo'lishi kerak; bitta ma'lumotnoma bilan ekstremal o'zgarishlarga cheklovlar mavjud, ammo portretlar va mo''tadil o'zgarishlar uchun u juda yaxshi ishlaydi.

2) Men nozik sozlash yoki o'rnatishdan foydalanish haqida o'ylashim kerakmi? Agar siz ko'p sahnalarda maksimal mustahkamlikni qidirsangiz, engil vaznli LoRA mavzusi eng yaxshi variantdir. yaxshiroq harakat/natija nisbatiO'rnatish (matnni o'zgartirish) engilroq, ammo kamroq nuanslarni qamrab oladi. To'liq sozlash juda aniq ishlab chiqarishlardan tashqari kamdan-kam hollarda talab qilinadi.

3) ComfyUI-da tavsiya etilgan tugun konfiguratsiyasi yoki texnikasi qanday bo'ladi? Tekshirish punkti + VAE + CLIP matn kodlash (pos/neg) + KSampler (DPM++ 2M Karras, 24–32 qadam, CFG 5–7) + IP-Adapter/InstantID + ControlNet (sahnaga qarab poza/chuqurlik). Og'irligi 0.6-1.0 bo'lgan mavzuning LoRA ni yuklang va ikkalasi bir-birini to'ldirishi uchun IP-adapterning quvvatini biroz pasaytiring.

4) Barqaror diffuziya nimani anglatadi va u nima uchun? Ushbu maqolada sizga ko'proq ma'lumot beramiz.

Shuni unutmangki, /r/StableDiffusion va ComfyUI hamjamiyatlari siz misollar almashishingiz, fikr-mulohazalaringizni so'rashingiz va yangi fokuslarni topishingiz mumkin bo'lgan ochiq joylardir. Kontentingizni SFW saqlang, pulli translatsiyalarni targ'ib qilishdan saqlaning va endi boshlayotganlar bilan ohangingizga ehtiyot bo'ling.; ularning barchasi orasida daraja juda tez ko'tariladi.

Yaxshi boshlang'ich nuqtasi (IP Adapter/Instant ID), sobit urug'lik, aniq ko'rsatmalar va shovqinni nazorat qilish bilan siz endi sozlamalar, imo-ishoralar va yoritishni o'zgartirish orqali izchil portretlarga erishishingiz mumkin. Agar siz LoRA-ni 10–30 xil fotosurat bilan mashq qilsangiz, o'xshashlik sezilarli darajada oshadi., va amaliyot bilan, ControlNet va keyingi ishlov berishni nozik sozlash, hatto yuqori aniqlikda ham yaxshi natijalar beradi. Ishni davom ettirmoqchi bo'lganlar uchun StableAvatar shuni ko'rsatadiki, xuddi shu izchil identifikatsiya g'oyasi to'g'ri manbalar bilan audio-boshqaruvchi videoga qo'llanilishi mumkin.