- IP-Adapter/InstantID ۽ LoRA پوز، روشني ۽ پس منظر ۾ تبديلين سان سڃاڻپ قائم ڪرڻ لاءِ سڀ کان وڌيڪ مضبوط ميلاپ آهن.
- ڊينوئز، سي ايف جي ۽ سيڊ کي ڪنٽرول ڪرڻ شاٽس جي وچ ۾ چهري جي مستقل مزاجي کي برقرار رکڻ ۾ سڀ فرق پيدا ڪري ٿو.
- هڪ تصوير قابل عمل آهي، پر 10-30 تصويرن سان هڪ LoRA تسلسل کي تمام گهڻو وڌائي ٿو.
- /r/StableDiffusion ۽ ComfyUI برادريون SFW ضابطن ۽ دوستانه علاج جي تحت وهڪرو ۽ مدد پيش ڪن ٿيون.
¿اسٽيبل ڊفيوژن + ComfyUI سان حقيقي اوتار ڪيئن ٺاهجن؟ اسٽيبل ڊفيوژن ۽ ComfyUI سان هڪ حقيقي ۽ مستقل اوتار ٺاهڻ هڪ وڌندڙ مقصد آهي، پر ان لاءِ ٿوري ٽيڪنڪ ۽ سٺي فيصلي جي ضرورت آهي. اهم ڳالهه اها آهي ته سڃاڻپ (چهري جون خاصيتون، وارن جو انداز، بناوت) کي محفوظ رکيو وڃي جڏهن ته پس منظر، روشني ۽ اظهار ۾ فرق هجي.، جنهن کي اڪثر ڪم جي وهڪري، مخصوص نوڊس، ۽ ڪڏهن ڪڏهن معاون ماڊل جهڙوڪ LoRA يا ايمبيڊنگ جي ميلاپ جي ضرورت هوندي آهي.
گھڻن استعمال ڪندڙن کي ساڳي مسئلي کي منهن ڏيڻو پوي ٿو: هڪ ريفرنس تصوير سان، اهي هڪ شاٽ ۾ سٺي هڪجهڙائي حاصل ڪن ٿا، پر ٻئي ۾، وارن جي اسٽائل يا اکين جو رنگ تبديل ٿي ويندو آهي. توهان ايمبيڊنگ (ٽيڪسٽيئل انورسيشن)، LoRA، ۽ ڪنٽرول نيٽ بابت ٻڌو هوندو، ۽ اهو سوچڻ عام آهي ته ڪهڙو طريقو توهان لاءِ صحيح آهي.؛ ان کان علاوه، IP-Adapter ۽ InstantID جهڙا آپشن منهن جي مستقل مزاجي کي بهتر بڻائڻ لاءِ اڀرندا رهندا آهن. هن آرٽيڪل ۾، اسان سڀ کان عام سوالن کي حل ڪريون ٿا: ڇا هڪ حوالو ڪافي آهي، ڇا اهو بهتر آهي ته LoRA کي ترتيب ڏيو يا ايمبيڊنگ استعمال ڪريو، ۽ ڪهڙا نوڊس/ترتيبات ComfyUI ۾ مستحڪم اوتار حاصل ڪرڻ لاءِ بهترين ڪم ڪن ٿا.
اوتار ۾ مستقل مزاجي مان اسان جو ڇا مطلب آهي؟
جڏهن اسان مستقل مزاجي بابت ڳالهايون ٿا، ته اسان جو مطلب اهو آهي ته ڪردار ڪيترن ئي تصويرن ۾ سڃاڻي سگهجي ٿو. اهو ضروري خاصيتن (منهن جي شڪل، اکين، نڪ، چپ، وارن) ۽ موضوع جي "احساس" کي برقرار رکڻ بابت آهي. جيتوڻيڪ اسين پوز، وات کولڻ، سخت روشني يا پيچيده پس منظر سان کيڏيون.
هي هم آهنگي نسل جي عمل ۾ سڃاڻپ کي "لنگر انداز" ڪرڻ مان ايندي آهي. جيڪڏهن ماڊل کي موضوع بابت ڪافي سگنل نه ملندا آهن، ته اهو سڌارو ۽ انحراف ڪندو.؛ انهيءَ ڪري هڪجهڙائي کي مضبوط ڪرڻ لاءِ بصري حوالن، سڃاڻپ ماڊلز، يا ننڍڙا ڪسٽم ٽائيڪس (LoRA، ايمبيڊنگز) استعمال ڪرڻ سمجهه ۾ اچي ٿو.
ان کان علاوه، اهو الڳ ڪرڻ ضروري آهي ته ڪهڙا عنصر سڃاڻپ کي ٽوڙڻ کانسواءِ تبديل ٿي سگهن ٿا ۽ ڪهڙا نه ٿا. پس منظر، لباس، اظهار ۽ روشني جو منصوبو محفوظ متغير آهن.؛ اکين جي شڪل، آئيرس جو رنگ، وارن جي لڪير، ۽ هڏن جي جوڙجڪ، ايترو گهڻو نه. ان حد کي بهتر بڻائڻ ڪم جو هڪ وڏو حصو آهي.
ڇا ComfyUI ۾ هڪ تصوير سان اهو حاصل ڪرڻ ممڪن آهي؟
مختصر جواب آهي: ها، نزاڪتن سان. جيڪڏهن توهان IP-اڊاپٽر (FaceID) يا InstantID جهڙيون چهري جي حوالي ڪرڻ جون ٽيڪنڪ استعمال ڪريو ۽ شور جي سطح کي ڪنٽرول ڪريو ته هڪ تصوير ڪافي ٿي سگهي ٿي. img2img ۾ يا ڪنڊيشننگ جي طاقت. يقيناً، تصوير صاف، چڱي طرح روشن، ۽ سامهون يا نيم پروفائل هجڻ گهرجي، واضح خاصيتن سان.
ComfyUI سان، هڪ عام طريقو اهو آهي ته هڪ چهري جي حوالي واري نوڊ کي هڪ چڱي طرح بيان ڪيل پرامپٽ ۽ هڪ مستحڪم نموني سان گڏ ڪيو وڃي. بصري ڪنڊيشننگ ماڊل کي خاصيتن جو احترام ڪرڻ لاءِ "ڌڪ" ڏئي ٿي، جڏهن ته پرامپٽ انداز، پس منظر يا روشني کي ترتيب ڏئي ٿو.جيڪڏهن توهان کي پوز ۾ گهڻي تبديلي جي ضرورت آهي، ته پوءِ منهن کي بگاڙڻ کان سواءِ پوز جي رهنمائي لاءِ ڪنٽرول نيٽ (اوپن پوز) تي ڀروسو ڪريو.
جڏهن ته، هڪ تصوير جون به حدون هونديون آهن: اهو ان تصوير ۾ مخصوص اظهار يا روشني کي "وڌيڪ سکي" سگهي ٿو. جيڪڏهن توهان وڌ ۾ وڌ وفاداري ۽ ورسٽائلٽي ڳولي رهيا آهيو، ته 6-20 حوالا تصويرون عام ڪرڻ کي بهتر بڻائين ٿيون.، ۽، جيڪڏهن ضروري هجي ته، توهان جي تصويرن تي تربيت يافته هڪ هلڪو LoRA بهترين شاٽ-ٽو-شاٽ تسلسل فراهم ڪري ٿو.
ايمبيڊنگ، LoRA، يا فائن ٽيوننگ: ڪيئن چونڊيو
سڃاڻپ جي ڪسٽمائيزيشن جا ٽي مکيه رستا آهن: ايمبيڊنگ (ٽيڪسٽوئل انورسيشن)، LoRA، ۽ مڪمل فائن ٽيوننگ. ايمبيڊنگز CLIP کي هڪ نئون ٽوڪن سيکاري ٿو جيڪو توهان جي موضوع جي نمائندگي ڪري ٿو.، ڪجھ ايم بي ۽ مناسب تيز تربيت سان، پر ان جي طاقت LoRA جي مقابلي ۾ محدود آهي.
ٻئي طرف، هڪ سٺي تربيت يافته LoRA، ماڊل جي پرتن ۾ صلاحيت داخل ڪري ٿو ته جيئن خاصيتن کي وڌيڪ صحيح طور تي پڪڙي سگهجي. 10-30 مختلف پورٽريٽ (زاويه، اظهار، روشني) ۽ وچولي تربيت سان توهان تمام گهڻي مستقل مزاجي حاصل ڪري سگهو ٿا. SD 1.5 يا SDXL ۾، جڏهن ته ننڍڙي فائل سائيز (ڏهه MB) برقرار رکندي. هي گھڻن لاءِ مٺي جڳهه آهي.
چيڪ پوائنٽ جي مڪمل فائن ٽيوننگ تمام مخصوص پروڊڪشن لاءِ مخصوص آهي. اهو مهانگو آهي، ڊيٽا جي ضرورت آهي، ۽ ماڊل جي مجموعي انداز کي اوور رائٽ ڪري ٿو.عملي طور تي، ذاتي اوتارن لاءِ، هڪ هلڪو وزن وارو LoRA يا هڪ سٺو چهرو-ريفرنسنگ پائپ لائن عام طور تي ڪافي هوندو آهي.
ComfyUI ۾ تجويز ڪيل نوڊس ۽ بلاڪ
مستقل مزاجي لاءِ هڪ عام گراف بنيادي چيڪ پوائنٽ، ٽيڪسٽ انڪوڊرز، هڪ مستحڪم نموني، ۽ سڃاڻپ/ڪنٽرول ماڊلز کي گڏ ڪري ٿو. اهي سڀ کان وڌيڪ ڪارآمد بلاڪ آهن ۽ اهي ڪيئن گڏجي کيڏندا آهن.:
- چيڪ پوائنٽ + VAE: SD 1.5 يا SDXL لوڊ ڪريو (توهان جي جمالياتي ۽ وسيلن جي ترجيحن تي منحصر آهي). SDXL تفصيل فراهم ڪري ٿو، پر وڌيڪ VRAM جي ضرورت آهي.
- CLIP ٽيڪسٽ انڪوڊ (مثبت/منفي): صاف اشارا، موضوع جي ٽوڪن جو ذڪر (جيڪڏهن LoRA استعمال ڪري رهيا آهيو يا ايمبيڊنگ ڪري رهيا آهيو) ۽ انداز/منظر جون هدايتون.
- ڪي سمپلر: DPM++ 2M ڪراس اسٽيبل سيمپلر، 20-35 قدم، SDXL تي CFG 4-7 (SD1.5 تي 6-9)، پيداوار لاءِ مقرر ٿيل ٻج.
- آئي پي اڊاپٽر / فوري سڃاڻپ: چهري جي ترتيب خاصيتن کي برقرار رکڻ لاءِ؛ انحراف جي مطابق طاقت (0.6-0.9) کي ترتيب ڏيو.
- ڪنٽرول نيٽ (اوپن پوز/ڊيپٿ/ڪيني): پوز، حجم ۽ ڪنٽور کي ڪنٽرول ڪري ٿو جڏهن ته سڃاڻپ IP-اڊاپٽر/LoRA ذريعي لنگر انداز رهي ٿي.
- لورا لوڊر: پنهنجي سبجيڪٽ جي LoRA کي 0.6-1.0 جي وزن سان لڳايو؛ جيڪڏهن اهو انداز کي خراب ڪري ٿو، ته وزن گهٽايو يا CFG کي گهٽايو.
- Img2Img / ٽائلنگ: نرم تبديلين لاءِ، ڊينوئز 0.2–0.45 استعمال ڪريو؛ اعليٰ قدر سڃاڻپ کي تباهه ڪن ٿا.
هن بنياد تي، سڀ کان وڌيڪ مستحڪم ميلاپ عام طور تي آهي: موضوع LoRA + FaceID IP-اڊاپٽر + پوز ڪنٽرول نيٽLoRA ڪردار کي بيان ڪري ٿو، IP-اڊاپٽر سٺين خاصيتن کي درست ڪري ٿو، ۽ ControlNet توهان کي توهان جي فريمنگ ۽ پوزيشن کي تبديل ڪرڻ جي آزادي ڏئي ٿو.
بنيادي قدم بہ قدم وهڪرو (ComfyUI)
شروع ڪرڻ لاءِ، توهان هڪ گهٽ ۾ گهٽ، مضبوط وهڪرو ٺاهي سگهو ٿا. اهو توهان جي ڪم ايندو، ڇا توهان خالص متن سان شروع ڪريو ٿا يا جيڪڏهن توهان ڪنهن تصوير مان معمولي تبديليون ڪريو ٿا.:
- لوڊ چيڪ پوائنٽ (SDXL يا SD1.5) ۽ VAE لوڊ ڪريو.
- CLIP ٽيڪسٽ انڪوڊ (مثبت): موضوع کي انهن جي ٽوڪن سان بيان ڪريو يا، جيڪڏهن LoRA نه آهي، ته خاصيتن سان: «نوجوان بالغ، ننڍا ناسي وار، سائي اکيون، بيضوي چهرو» + گهربل انداز («سينيمي پورٽريٽ، نرم اهم روشني»).
- CLIP ٽيڪسٽ انڪوڊ (منفي): ان ۾ بچڻ لاءِ شيون شامل آهن ("ڌمڪيون، بگڙيل، اضافي آڱريون، غير مطابقت واريون اکيون، وارن جو غلط رنگ").
- IP اڊاپٽر / فوري سڃاڻپ: ريفرنس تصوير کي ڳنڍيو ۽ شروعاتي طاقت کي 0.75 تي سيٽ ڪريو (0.6-0.9 کي ترتيب ڏيو). جيڪڏهن توهان صرف هڪ تصوير استعمال ڪري رهيا آهيو، ته ان کي چهري تي ڪراپ ڪريو ۽ مناسب نمائش کي يقيني بڻايو.
- ڪنٽرول نيٽ پوز (اختياري): جيڪڏهن توهان سڃاڻپ وڃائڻ کان سواءِ مختلف اظهار/اشارا چاهيو ٿا ته پوز بيان ڪريو.
- ڪي سمپلر: DPM++ 2M ڪراس، 28–32 قدم، CFG 5.5–7 (SDXL: ٿورو گهٽ CFG ڏانهن رجحان رکي ٿو). مقابلي لاءِ مقرر ٿيل ٻج.
- VAE ڊيڪوڊ ۽، جيڪڏهن ضروري هجي ته، هڪ اپ اسڪيلر (4x-الٽرا شارپ، ESRGAN، يا SDXL ريفائنر سٺي تفصيل لاءِ).
جيڪڏهن توهان اڳ ۾ ئي هڪ آهي موضوع جو LoRA، ان کي 0.8 وزن سان نموني جي اڳيان شامل ڪريو (گهٽ شروع ڪريو ۽ جيڪڏهن هڪجهڙائي نه هجي ته مٿي وڃو). مضبوط LoRA سان توهان IP-اڊاپٽر جي طاقت کي گهٽائي سگهو ٿا.، LoRA کي سڃاڻپ ۽ IP-اڊاپٽر کي صرف "صحيح" ڪرڻ ڏيو.
پيرا ميٽر جيڪي فرق پيدا ڪن ٿا
جڏهن تسلسل کي ترتيب ڏيو ٿا، ته ننڍيون پيرا ميٽر تبديليون فيصلو ڪندڙ آهن. ڪنڊيشننگ جي طاقت، شور ۽ ٻج کي ڪنٽرول ڪرڻ توهان کي حقيقي استحڪام ڏئي ٿو.:
- img2img ۾ شور ختم ڪريو: 0.2–0.45 خاصيتون برقرار رکي ٿو ۽ مختلف روشني/پس منظر جي اجازت ڏئي ٿو. 0.55 کان، سڃاڻپ ختم ٿي ويندي آهي.
- سي ايف جي اسڪيلجيڪڏهن تصوير "زبردستي" ۽ بگڙيل آهي، ته CFG کي گهٽ ڪريو؛ جيڪڏهن ماڊل توهان جي پرامپٽ کي نظرانداز ڪري ٿو، ته ان کي اڌ پوائنٽ وڌايو.
- سيمپلر/قدم: DPM++ 2M ڪراس يا SDE ڪراس 24-32 مرحلن سان عام طور تي بنا ڪنهن نموني جي مسلسل نتيجا ڏين ٿا.
- مهر: مقابلي لاءِ ٻج مقرر ڪري ٿو. معمولي تبديلي لاءِ، 0.1-0.3 جي طاقت سان "تغير جو ٻج" استعمال ڪريو.
- تجويز: 768–1024 ڊگهي پاسي تي چهري جي سٺين خاصيتن کي وڌائي ٿو. SDXL تي، 1024 تفصيل لاءِ بهترين جڳهه آهي.
جيڪڏهن وارن يا اکين جو رنگ بدلجي وڃي ته، منفي ۾ "غلط وارن جو رنگ، رنگ ۾ تبديلي، اکين جو رنگ غير مطابقت" شامل ڪريو ۽ ورجايو. اهو هر شاٽ ۾ مثبت اشاري جي حصي طور رنگ متعارف ڪرائڻ ۾ پڻ مدد ڪري ٿو. ماڊل کي "وسارڻ" کان روڪڻ لاءِ.
سڃاڻپ وڃائڻ کان سواءِ اظهار، پس منظر ۽ روشني
متغير اظهارن لاءِ (مسڪراهٽ، حيرت، کليل وات)، ڀروسو ڪريو ڪنٽرول نيٽ اوپن پوز يا، اڃا بهتر، جڏهن اهو دستياب ٿئي ٿو ته چهري جي نشانن جو هڪ پري پروسيسر. چهري جي جاميٽري کي ڪنٽرول ڪرڻ سان خرابيون گهٽجي وينديون آهن ۽ ماڊل کي خاصيتون ايجاد ڪرڻ کان روڪيو ويندو آهي..
روشني ۾، واضح طور تي اسڪيم ٺاهيو: "کاٻي پاسي کان سافٽ باڪس"، "رم لائيٽ"، "گولڊن آور". ماحولياتي حوالن (ذهني HDRI، اسٽوڊيو وضاحتون) استعمال ڪندي سڃاڻپ کي متاثر ڪرڻ کان سواءِ پاڇن جي رهنمائي ڪري ٿو.جيڪڏهن چمڙي جو رنگ تبديل ٿئي ٿو، ته "اسڪين ٽون جي تسلسل" شامل ڪريو يا پرامپٽ ۾ رنگ جي درجه حرارت کي سيٽ ڪريو.
پيچيده پس منظرن لاءِ، گهٽ طاقت (0.35–0.55) تي ڪنٽرول نيٽ ڊيپٿ يا ڪيني استعمال ڪريو ۽ پرامپٽ تي ماحول بيان ڪريو. IP-اڊاپٽر/LoRA جو وزن پس منظر ڪنٽرول نيٽ کان وڌيڪ هجڻ گهرجي. ته جيئن چهرو غير ملڪي شڪلين سان آلوده نه ٿئي.
جڏهن توهان پنهنجو لُڪ (ڪپڙا/لوازمات) تبديل ڪرڻ چاهيو ٿا، ته انهن کي ٽيڪسٽ ۾ داخل ڪريو ۽ جيڪڏهن LoRA هميشه ساڳئي لباس کي "ڇڪي" ٿو ته ان جو وزن نرم ڪريو. LoRAs جمالياتي تفصيلن کي اوور رائيڊ ڪري سگھن ٿا؛ وزن کي متوازن ڪري سگھن ٿا ته جيئن نوان اشارا موڪليا وڃن..
تربيت ڏيڻ يا نه ڏيڻ: LoRA/ايمبيڊنگ لاءِ عملي هدايتون
جيڪڏهن چهري جو حوالو ڪافي نه آهي، ته موضوع جي LoRA تي غور ڪريو. مختلف زاوين، اظهار، پس منظر، ۽ روشني سان 10-30 تصويرون استعمال ڪريو (پر پنهنجو چهرو صاف ۽ تيز رکو).. ننڍي پاسي کي 512–768 px تائين ڪراپ ڪريو، جيڪڏهن توهان جو بنياد جنرلسٽ آهي ته نر/عورت کي متوازن ڪريو، ۽ ٽوڪن جو نالو نوٽ ڪريو.
رهنمائي ڪندڙ تربيتي پيرا ميٽرز (SD1.5): درجه بندي 4–8، الفا درجه بندي جي برابر، سکيا جي شرح 1e-4 کان 5e-5، ننڍي بيچ سان 2k–6k قدم. گهڻي تربيت کان پاسو ڪريو؛ جيڪڏهن توهان هڪ تصوير جو "ڪلون" ڏسو ٿا، ته قدم گهٽايو يا وڌيڪ قسم شامل ڪريو.SDXL تي، وڌيڪ ريزوليوشن استعمال ڪريو ۽ وڌيڪ VRAM وٺو.
ايمبيڊنگ (ٽيڪسٽيئل انورسيشن) لاءِ، 3-10 تصويرون ڪم ڪري سگهن ٿيون، پر استحڪام لاءِ توهان کي وڌيڪ قدمن جي ضرورت پوندي. ايمبيڊنگز جو مجموعي جماليات تي گهٽ اثر پوي ٿو ۽ انهن جو وزن تمام گهٽ آهي.، مثالي جيڪڏهن توهان LoRA کي منظم ڪرڻ کان سواءِ ٻيهر استعمال لائق ٽوڪن چاهيو ٿا.
معيار، اسڪيلنگ ۽ ري ٽچنگ
هڪ ڀيرو بنيادي تصوير تيار ٿي وڃي، چهري جي تفصيل لاءِ 2–4x اسڪيلر (ESRGAN، 4x الٽرا شارپ) يا SDXL ريفائنر لاڳو ڪريو. ريفائنر چمڙي ۽ اکين کي بنا ڪنهن نموني جي درست ڪري سگهي ٿو.خاص طور تي جيڪڏهن توهان ٻج ۽ ساڳيو اشارو رکو ٿا.
مخصوص اکين/وات کي درست ڪرڻ لاءِ، توهان ADetailer يا چهري جي بحالي نوڊس استعمال ڪري سگهو ٿا. باقي ڪمپوزيشن کي محفوظ رکندي مقامي غلطيون درست ڪريو.سخت فلٽرن کان پاسو ڪريو جيڪي چمڙي کي "پلاسٽڪائيز" ڪن ٿا؛ ان جي بدران، تيزيءَ ۽ مائڪرو ڪنٽراسٽ سيٽنگن کي ٺيڪ ڪريو.
عام مسئلن کي حل ڪرڻ
جيڪڏهن وارن جو انداز ٽيڪ جي وچ ۾ تبديل ٿئي ٿو، ته مسئلو عام طور تي گهڻو شور يا مبهم اشارا آهن. ڊينوئز/سي ايف جي کي گهٽ ڪريو، "ننڍا ڀوري وار" کي مضبوط ڪريو يا هر پرامپٽ ۾ هڪ مخصوص وار اسٽائل بيان ڪريو.جيڪڏهن توهان LoRA استعمال ڪندا آهيو، ته ان جو وزن 0.1 وڌايو.
جيڪڏهن اکين جو رنگ مختلف هجي ته پوءِ "سائيون اکيون، هڪجهڙيون اکين جو رنگ" شامل ڪريو ۽ "غير متضاد اکين جو رنگ، هيٽرو ڪروميا" ناڪاري ۾ لکو. IP-اڊاپٽر/انسٽنٽ آئي ڊي پڻ آئرس جي تفصيل ۾ مدد ڪري ٿو. جڏهن حوالو تمام واضح آهي.
جيڪڏهن انداز سڃاڻپ کي "کائي" ٿو (مثال طور، هڪ مضبوط انداز LoRA)، ان جو وزن گھٽايو يا موضوع LoRA جو وزن وڌايو. هڪجهڙائي کي قربان ڪرڻ کان بچڻ لاءِ وزن کي متوازن ڪرڻ ضروري آهي.ٻيو آپشن اهو آهي ته CFG کي گهٽ ڪيو وڃي ته جيئن ماڊل انداز کي ايترو مجبور نه ڪري.
جيڪڏهن تبديليون گهٽ ۾ گهٽ آهن، ته پوءِ ڊينوئز (0.05-0.1) ٿورو وڌايو يا تبديلي جا ٻج استعمال ڪريو. بي ترتيبي جو ٿورو زور خاصيتن کي ٽوڙڻ کان سواءِ تنوع پيدا ڪري ٿو..
برادريون ۽ معيار: ڪٿي سکڻ ۽ حصيداري ڪرڻ
ريڊٽ تي اسٽيبل ڊفيوژن ڪميونٽي تمام وڏي ۽ تمام گهڻي سرگرم آهي. /r/StableDiffusion ۾ توهان آرٽ پوسٽ ڪري سگهو ٿا، سوال پڇي سگهو ٿا، بحث ڪري سگهو ٿا، ۽ نئين کليل ٽيڪنڪ ۾ حصو وٺي سگهو ٿا.؛ اهو ڪو سرڪاري فورم ناهي، پر ان جو روح اوپن سورس ايڪو سسٽم کي سپورٽ ڪرڻ ۽ توهان کي بهتر بڻائڻ ۾ مدد ڪرڻ آهي.
ComfyUI سبريڊٽ، جيڪو ڪميونٽي/غير سرڪاري پڻ آهي، ڪم جي وهڪري، سوالن ۽ صلاحن کي شيئر ڪرڻ لاءِ هڪ بهترين جڳهه آهي. مھرباني ڪري پوسٽون SFW رکو، ادا ڪيل اسٽريمز کي فروغ نه ڏيو، موضوع تي رھو، ۽ سڀ کان وڌيڪ، مھرباني ڪريو.ٻين ماڻهن جي نتيجن کي نظرانداز ڪرڻ جي نتيجي ۾ پابندي لڳائي ويندي، ۽ اها صلاح ڏني وئي آهي ته توهان پنهنجي فيڊ کي مسلسل گهڻين پوسٽن سان نه ڀريو.
اهڙن موضوعن کي ڳولڻ جتي گراف ۽ پيرا ميٽر ڳنڍيل آهن، توهان جي سکيا کي تيز ڪرڻ جو هڪ بهترين طريقو آهي. مقرر ٿيل ٻج، LoRA وزن، ۽ حوالن جي تصويرن سان معيار ڏسڻ سان توهان کي ڏيکاري ٿو ته ڪهڙيون سيٽنگون اصل ۾ ڪم ڪن ٿيون. عملي طور.
تصوير کان وڊيو تائين آڊيو سان: اسٽيبل اوتار
جيڪڏهن توهان هڪ قدم اڳتي وڌڻ چاهيو ٿا ۽ هڪ اهڙو اوتار چاهيو ٿا جيڪو آڊيو استعمال ڪندي "ڳالهائي"، ته پوءِ StableAvatar چيڪ ڪريو. اهو هڪ فريم ورڪ آهي جيڪو اعليٰ وفاداري، وقتي طور تي مطابقت رکندڙ ڳالهائڻ واري سر وڊيوز پيدا ڪرڻ لاءِ آهي، ممڪن طور تي لامحدود ڊيگهه جا.، هڪ آڊيو ٽريڪ کان شروع ٿي.
ان جي ليکڪن جي مطابق، 480x832 ۽ 25 fps تي 5 سيڪنڊن جي ڪلپ لاءِ، –GPU_memory_mode=»model_full_load» سان بنيادي ماڊل کي لڳ ڀڳ 18 GB VRAM جي ضرورت آهي ۽ 4090 GPU تي لڳ ڀڳ 3 منٽن ۾ ختم ٿئي ٿو. هي گهربل وسيلن ۽ جديد هارڊويئر تي ممڪن ڪارڪردگي جو واضح خيال ڏئي ٿو.. ڪوڊ ۽ ماڊل هتي موجود آهن: https://github.com/Francis-Rings/StableAvatar
ٽيم اڳڀرائي ڪري ٿي ته سسٽم لاءِ مخصوص LoRA/فائن ٽيوننگ هوندي. هي اوتار ۽ ان جي چهري جي انداز کي وڌيڪ ترتيب ڏيڻ جو دروازو کوليندو آهي.، سڃاڻپ کي لنگر انداز ڪرڻ جيئن اسان جامد تصويرن ۾ ڪندا آهيون، پر مربوط وڊيو تسلسل ۾.
ٽن اهم سوالن جا سڌو سنئون جواب

1) ڇا مان صرف هڪ ريفرنس تصوير سان ComfyUI ۾ سڌو سنئون مسلسل اوتار ٺاهي سگهان ٿو؟ ها، IP-اڊاپٽر (FaceID) يا InstantID ۽ ڪنٽرول ٿيل ڊينوئز ۽ هڪ مقرر ٿيل ٻج سان هڪ مضبوط وهڪري استعمال ڪندي. تصوير صاف ۽ سامهون هجڻ گهرجي.؛ هڪ حوالي سان انتهائي تبديلي جون حدون آهن، پر پورٽريٽ ۽ وچولي تبديلين لاءِ اهو تمام سٺو ڪم ڪري ٿو.
2) ڇا مون کي فائن ٽيوننگ تي غور ڪرڻ گهرجي يا ايمبيڊنگ استعمال ڪرڻ گهرجي؟ جيڪڏهن توهان ڪيترن ئي منظرن ۾ وڌ ۾ وڌ مضبوطي ڳولي رهيا آهيو، ته هڪ هلڪو وزن وارو LoRA موضوع بهترين آپشن آهي. بهتر ڪوشش / نتيجو تناسبايمبيڊنگ (ٽيڪسٽيئل انورسيشن) هلڪا آهن، پر گهٽ باريڪيون پڪڙين ٿا. مڪمل فائن ٽيوننگ تمام گهٽ ضروري آهي سواءِ تمام مخصوص پروڊڪشن جي.
3) ComfyUI ۾ تجويز ڪيل نوڊ ترتيب يا ٽيڪنڪ ڇا هوندي؟ چيڪ پوائنٽ + VAE + CLIP ٽيڪسٽ انڪوڊ (pos/neg) + KSampler (DPM++ 2M ڪاراس، 24–32 قدم، CFG 5–7) + IP-اڊاپٽر/انسٽنٽ آئي ڊي + ڪنٽرول نيٽ (منظر تي منحصر پوز/ڊيپٿ). موضوع جي LoRA کي 0.6–1.0 وزن سان لوڊ ڪريو. ۽ IP-اڊاپٽر جي طاقت کي ٿورو گھٽ ڪريو ته جيئن ٻئي هڪ ٻئي جي مڪمل ٿين.
4) اسٽيبل ڊفيوژن جو مطلب ڇا آهي ۽ اهو ڇا لاءِ آهي؟ اسان توهان کي هن مضمون ۾ اڃا به وڌيڪ ٻڌايون ٿا.
اهو نه وساريو ته /r/StableDiffusion ۽ ComfyUI ڪميونٽيون کليل جڳهيون آهن جتي توهان مثال شيئر ڪري سگهو ٿا، موٽ لاءِ پڇي سگهو ٿا، ۽ نوان طريقا ڳولي سگهو ٿا. پنهنجي مواد کي SFW رکو، ادا ڪيل اسٽريمز کي فروغ ڏيڻ کان پاسو ڪريو، ۽ جيڪي صرف شروعات ڪري رهيا آهن انهن سان پنهنجي لهجي سان محتاط رهو.؛ انهن سڀني جي وچ ۾، سطح تمام تيزي سان وڌي ٿي.
هڪ سٺي شروعاتي نقطي (IP اڊاپٽر/انسٽنٽ آئي ڊي)، هڪ مقرر ٿيل ٻج، صاف اشارا، ۽ شور کي گهٽائڻ واري ڪنٽرول سان، توهان هاڻي سيٽنگون، اشارا، ۽ روشني تبديل ڪندي مسلسل پورٽريٽ حاصل ڪري سگهو ٿا. جيڪڏهن توهان 10-30 مختلف تصويرن سان LoRA کي پڻ تربيت ڏيو ٿا، ته هڪجهڙائي تمام گهڻي وڌي ويندي.، ۽ مشق سان، ڪنٽرول نيٽ ۽ پوسٽ پروسيسنگ کي بهتر ڪرڻ سان توهان کي اعليٰ ريزوليوشن تي به مضبوط نتيجا ملندا. انهن لاءِ جيڪي شيون اڳتي وڌائڻ چاهين ٿا، اسٽيبل اوتار ڏيکاري ٿو ته مسلسل سڃاڻپ جو ساڳيو خيال صحيح وسيلن سان آڊيو تي هلندڙ وڊيو تي لاڳو ڪري سگهجي ٿو.
هن کي ننڍي هوندي کان ئي ٽيڪنالاجيءَ جو شوق هو. مون کي شعبي ۾ تازه ڪاري ڪرڻ پسند آهي ۽، سڀ کان وڌيڪ، ان کي گفتگو ڪرڻ. ان ڪري مان ڪيترن سالن کان ٽيڪنالاجي ۽ وڊيو گيم ويب سائيٽس تي ڪميونيڪيشن لاءِ وقف ٿي چڪو آهيان. توهان مون کي ڳولي سگهو ٿا Android، Windows، MacOS، iOS، Nintendo يا ڪنهن ٻئي لاڳاپيل موضوع بابت جيڪو ذهن ۾ اچي ٿو.