- स्टेबल डिफ्यूजन एक ओपन-सोर्स मॉडल है जो आपको एआई का उपयोग करके टेक्स्ट से यथार्थवादी और कलात्मक चित्र बनाने की अनुमति देता है।
- स्टेबल डिफ्यूजन का उपयोग करने के कई तरीके हैं: ऑनलाइन, स्थानीय रूप से इंस्टॉल, और कस्टम एक्सटेंशन और टेम्पलेट्स के साथ उन्नत विकल्प।
- चित्रों की गुणवत्ता काफी हद तक इस बात पर निर्भर करती है कि संकेत कैसे लिखे गए हैं और उनके आंतरिक पैरामीटर कैसे समायोजित किए गए हैं।
- कंट्रोलनेट, लोआरएएस जैसे उन्नत उपकरणों और प्लेटफॉर्म में ही निर्मित संपादन तकनीकों के साथ रचनात्मक संभावनाओं का और अधिक विस्तार होता है।

का ब्रह्मांड कृत्रिम बुद्धि हाल के वर्षों में इसने एक बड़ी छलांग लगाई है, जिससे किसी भी व्यक्ति को, चाहे उसका तकनीकी ज्ञान या कलात्मक अनुभव कुछ भी हो, अपनी रचनात्मकता का उपयोग करने की अनुमति मिल गई है। सरल वाक्यांशों से आकर्षक चित्र बनाएं. स्थिर प्रसारजनरेटिव एआई के क्षेत्र में सबसे क्रांतिकारी और प्रशंसित विकासों में से एक, आपके लिए शक्तिशाली उपकरण उपलब्ध कराता है, जो प्रयोग करने वालों और डिजाइन और चित्रण पेशेवरों दोनों के लिए है।
इस गाइड में हम आपको स्थिर प्रसार के बारे में सब कुछ बताएंगे। शुरुआती कदम से लेकर उन्नत प्रॉम्प्ट और संपादन तकनीकों तक, जिसमें टूल, टेम्प्लेट और एक्सटेंशन के लिए सिफारिशें शामिल हैं जो आपकी रचनाओं को अगले स्तर तक ले जाएंगी।
स्थिर प्रसार क्या है और इसने इमेजिंग में क्रांति क्यों ला दी है?
स्थिर प्रसार यह एक ओपन-सोर्स आर्टिफिशियल इंटेलिजेंस मॉडल है, जिसने गहन शिक्षण तकनीकों का उपयोग करके छवि निर्माण को लोकतांत्रिक बनाया है। अपने अभिनव डिजाइन के कारण, आपको एक सरल पाठ विवरण (प्रॉम्प्ट) को अविश्वसनीय छवियों में परिवर्तित करने की अनुमति देता है, विस्तृत और उच्च गुणवत्ता। आप जहां कहीं भी हों, आप बिना कुछ भुगतान किए इसके इंजन का लाभ उठा सकते हैं, इसे जहां चाहें वहां स्थापित कर सकते हैं, और यहां तक कि अपनी आवश्यकताओं के अनुरूप इसे अपग्रेड भी कर सकते हैं, जो इसे अन्य वाणिज्यिक और बंद समाधानों से अलग करता है।
स्थिर प्रसार का संचालन एक पर आधारित है प्रसार मॉडलयह एक बंद टीवी जैसी यादृच्छिक शोर से शुरू होता है और आपके पाठ द्वारा निर्देशित कई चरणों और परिशोधनों के माध्यम से उस शोर को तब तक समाप्त करता है जब तक कि यह एक सुसंगत और दृष्टिगत रूप से आकर्षक छवि नहीं बना देता।
यह विशेषता इसे एक कलाकारों, सामग्री निर्माताओं, डेवलपर्स और घरेलू उपयोगकर्ताओं के लिए आदर्श विकल्प जो पारंपरिक छवियों से आगे जाना चाहते हैं। तथ्य यह है कि यह खुला स्रोत है, जो अंतहीन अनुकूलन, मालिकाना उपकरणों के साथ एकीकरण और स्थानीय उत्पादन के लिए द्वार खोलता है, यदि आप चाहें तो तीसरे पक्ष के सर्वर या मासिक शुल्क पर निर्भर किए बिना।
स्थिर प्रसार के साथ आप क्या कर सकते हैं?
स्थिर प्रसार अनुप्रयोग केवल पाठ से छवि बनाने से कहीं आगे जाते हैं। AI केवल स्क्रैच से छवियां उत्पन्न नहीं करता है, लेकिन यह भी सक्षम है:
- मौजूदा छवियाँ संपादित करें: आप कोई फोटो अपलोड कर सकते हैं और उसमें ऑब्जेक्ट जोड़ने, विवरण हटाने या शैली बदलने के लिए कह सकते हैं।
- आउटपेंटिंग: आपके द्वारा संकेत में दिए गए संकेतों से आपकी रचना के किनारों का विस्तार होता है।
- विशिष्ट क्षेत्रों को भरना (इनपेंटिंग): आपके द्वारा चयनित छवि के केवल एक भाग को संशोधित करें, जैसे कि हाथ को ठीक करना, पृष्ठभूमि को बदलना, या चेहरे पर अभिव्यक्ति को बढ़ाना।
- छवियाँ रूपांतरित करें (img2img): आप एक वास्तविक छवि को संदर्भ के रूप में उपयोग कर सकते हैं ताकि स्टेबल डिफ्यूजन उसे किसी अन्य शैली में पुनर्व्याख्यायित कर सके, प्रकाश या रंग बदल सके...
- कलात्मक शैलियों का संयोजन: यह विभिन्न तकनीकों और संदर्भों (उदाहरण के लिए, शास्त्रीय कला, एनीमे, फोटोरियलिज्म, आदि) को एक ही प्रॉम्प्ट में मिश्रित करता है।
यह चंचलता यह डिजिटल रचनात्मकता, चित्रण, ग्राफिक डिजाइन और यहां तक कि वीडियो गेम, विपणन अभियानों के लिए संसाधन उत्पन्न करने या केवल एआई की सीमाओं का पता लगाने का आनंद लेने के लिए एक आदर्श साथी है।
स्थिर प्रसार अंदर कैसे काम करता है?
स्थिर प्रसार किससे उत्पन्न होता है? लाखों कैप्शनयुक्त छवियों का प्रशिक्षण बड़े डेटासेट (जैसे LAION-5B) के कारण, जहां AI पाठ्य अवधारणाओं को दृश्य पैटर्न के साथ जोड़ना सीखता है। यह मॉडल उस तकनीक का उपयोग करता है जिसे कहा जाता है प्रसार मॉडल: सबसे पहले यह छवि को शोर में बदलकर नष्ट कर देता है, और फिर उपयोगकर्ता द्वारा दर्ज किए गए पाठ के आधार पर इसे नए सिरे से पुनः बनाना सीखता है।
प्रत्येक चरण में, मॉडल छवि को परिष्कृत करता है, शोर को कम करना और विस्तार के स्तर को बढ़ाना, जब तक कि परिणाम हमारे द्वारा वर्णित दृश्य के करीब न आ जाए। इसके अतिरिक्त, स्थिर प्रसार आपको दृश्य के विशिष्ट तत्वों को प्राथमिकता देने (या कम करने), शैलियों में हेरफेर करने और अवांछित परिणामों से बचने के लिए कुछ शब्दों के "वजन" को नियंत्रित करने की अनुमति देता है।
La परियोजना का निरंतर विकास और कोड के प्रति उसका खुलापन इसने समुदाय द्वारा अनगिनत रूपों और सुधारों को उभरने की अनुमति दी है, जैसे कि नए मॉडल, शैलियाँ और तकनीकें, जिनसे अधिक यथार्थवादी या विशिष्ट परिणाम प्राप्त किए जा सकें।
अन्य उपकरणों की तुलना में स्टेबल डिफ्यूजन क्या लाभ प्रदान करता है?
स्थिर प्रसार का मुख्य अंतर यह है इसकी मुफ़्त और खुला स्रोत प्रकृति. मिडजर्नी या DALL-E जैसे अन्य मॉडलों के विपरीत, आप इसे अपने कंप्यूटर पर चला सकते हैं, सर्वर पर इंस्टॉल कर सकते हैं, नई चीजें आज़मा सकते हैं और अपनी पसंद के अनुसार इसे संशोधित कर सकते हैं। अन्य उल्लेखनीय लाभों में शामिल हैं:
- निःशुल्क (प्रीमियम प्लेटफॉर्म को छोड़कर)आप अधिकांश वेब सेवाओं और स्थानीय स्थापना का निःशुल्क उपयोग कर सकते हैं, जब तक कि आप प्रीमियम सर्वर का विकल्प नहीं चुनते हैं या बहुत विशिष्ट उन्नत सुविधाओं तक पहुंच नहीं चाहते हैं।
- गोपनीयता: आप अपने सिस्टम से बाहर निकले बिना ही छवियां बना सकते हैं, जिससे क्लाउड डेटा या धीमे कनेक्शन से होने वाली समस्याओं से बचा जा सकता है।
- मॉड्यूलरिटी और अनुकूलन: असीमित कस्टम मॉडल, शैलियों, एक्सटेंशन और समुदाय-विकसित संसाधनों का समर्थन करता है।
- गुणवत्ता और विस्तार: मॉडलों की नवीनतम पीढ़ी (एसडीएक्सएल, जुगरनॉट, रियलिस्टिक विजन, आदि) भुगतान किए गए छवि उत्पादन के साथ प्रतिस्पर्धा करती है और अक्सर उससे आगे निकल जाती है।
इसके मद्देनजर, कुछ कमजोरियों या लंबित मुद्दों की ओर भी ध्यान दिलाया जाना चाहिए। सबसे ऊपर, यह ध्यान दिया जाना चाहिए कि स्थिर प्रसार प्रस्तुत करता है अन्य समाधानों की तुलना में अधिक तीव्र सीखने की अवस्था विज्ञापन
आरंभ करना: स्थिर प्रसार को स्थानीय रूप से कैसे स्थापित और कॉन्फ़िगर करें
अपने कंप्यूटर पर स्टेबल डिफ्यूजन को इंस्टॉल करना जितना लगता है उससे कहीं अधिक आसान है, खासकर लोकप्रिय इंटरफ़ेस के साथ स्वचालित 1111, जिसने विंडोज़ के लिए प्रक्रिया को यथासंभव सरल बना दिया है।
- आधिकारिक रिपॉजिटरी पर जाएं GitHub पर स्वचालित 1111, “एसेट्स” अनुभाग देखें और इंस्टॉलर (.exe) डाउनलोड करें।
- डाउनलोड की गई फ़ाइल चलाएँ. आपके कंप्यूटर की गति के आधार पर स्थापना प्रक्रिया में कुछ समय लग सकता है।
- समाप्त होने पर, आपके डेस्कटॉप या गंतव्य फ़ोल्डर में "A1111 WebUI" नामक एक शॉर्टकट होगा। डबल-क्लिक करने से आपके ब्राउज़र में ग्राफ़िकल इंटरफ़ेस खुल जाएगा, जो निर्माण शुरू करने के लिए तैयार है।
- यदि आपका कंप्यूटर बहुत शक्तिशाली नहीं है, तो हम इंटरफ़ेस और एक्सटेंशन के लिए स्वचालित अपडेट सक्षम करने की सलाह देते हैं, साथ ही "कम VRAM" विकल्प भी सक्षम करने की सलाह देते हैं।
यदि आप मैक या लिनक्स का उपयोग कर रहे हैं, तो उनके ओपन सोर्स रिपॉजिटरी से स्टेबल डिफ्यूजन को स्थापित करने के लिए विशिष्ट मार्गदर्शिकाएं उपलब्ध हैं।
स्टेबल डिफ्यूजन में प्रभावी प्रॉम्प्ट कैसे लिखें: संरचना, वाक्यविन्यास और टिप्स
आपकी छवियों की सफलता लगभग पूरी तरह से प्रॉम्प्ट पर निर्भर करती है। एक अच्छी संरचना आपको पेशेवर परिणाम प्राप्त करने की अनुमति देगी और अस्पष्ट वर्णनों से उत्पन्न कहानियों से बहुत भिन्न हैं।
एक अनुशंसित संकेत में निम्नलिखित दर्शाया जाना चाहिए:
- छवि प्रकार: फोटोग्राफी, ड्राइंग, चित्रण, 3डी रेंडरिंग, आदि।
- विषय: छवि में कौन दिखाई दे रहा है (व्यक्ति, पशु, वस्तु...), तथा आपके इच्छित सभी विवरण (आयु, जातीयता, अभिव्यक्ति, आदि)
- कार्रवाई: वह आदमी क्या कर रहा है?
- संदर्भ/परिदृश्य: दृश्य कहाँ घटित होता है, प्रकाश व्यवस्था, वर्ष का समय, प्रमुख रंग आदि।
- संशोधक: चित्रकला शैली, लेंस और कैमरा, दिन का समय, रंग पैलेट, संदर्भ कलाकार, रिज़ॉल्यूशन, गुणवत्ता, विशेष प्रभाव जैसे बोकेह, धुंधलापन, टेक्सचरिंग...
पैरा नकारात्मक संकेत, बस उन सभी विशेषताओं को जोड़ें जो आप छवि में नहीं चाहते हैं: "धुंधला, बदसूरत, विकृत हाथ, बहुत सारी उंगलियां, पाठ, वॉटरमार्क, कम रिज़ॉल्यूशन, गलत अनुपात, रुग्ण, डुप्लिकेट ..." और परिणाम में कुछ भी जो आपको परेशान करता है।
स्थिर प्रसार में प्रॉम्प्ट को कैसे सुधारें?
सर्वोत्तम परिणाम प्राप्त करने के लिए इन सुझावों का पालन करें। वजन और प्रोग्रामिंग को सही ढंग से समायोजित करना उचित है। स्थिर प्रसार आपको कुछ शब्दों को अधिक या कम महत्व देने की अनुमति देता है वाक्यविन्यास का उपयोग करना “शब्द:कारक”. शब्द:कारक जितना अधिक होगा, वह शब्द उतना ही अधिक प्रासंगिक होगा; आप किसी शब्द या अवधारणा का महत्व और अधिक बढ़ाने के लिए अतिरिक्त कोष्ठकों का उपयोग कर सकते हैं।
इसके अतिरिक्त, वाक्यविन्यास-संचालित प्रॉम्प्ट प्रोग्रामिंग आपको विचारों या शैलियों को एक ही छवि में संयोजित करने की अनुमति देती है, जिससे एक अवधारणा से दूसरी अवधारणा में परिवर्तन आपके द्वारा परिभाषित चरणों का पालन करते हुए संभव हो जाता है।
यदि आप अटक गए हैं या त्वरित प्रेरणा की तलाश कर रहे हैं, तो लेक्सिका, सिविटाई या स्टेबल डिफ्यूजन के अपने पीएनजी इन्फो टैब जैसे प्लेटफॉर्म आपको एआई-जनरेटेड छवियों को खींचने और उन्हें बनाने के लिए उपयोग किए गए सटीक संकेत को देखने की सुविधा देते हैं।
अतियथार्थवादी और कलात्मक छवियों के लिए सर्वोत्तम स्थिर प्रसार मॉडल
स्थिर प्रसार ब्रह्मांड अपने मूल मॉडलों से कहीं अधिक व्यापक है। वर्तमान में अनेक कस्टम मॉडल (चेकपॉइंट) उपलब्ध हैं, जिन्हें विशिष्ट शैलियों के लिए अनुकूलित किया गया है, जैसे फोटोरियलिज्म, एनीमे, तकनीकी चित्रण, आदि। इनमें से कुछ सर्वाधिक अनुशंसित और लोकप्रिय हैं:
एसडी 1.5 के लिए मॉडल:
- जुगरनॉट आरबोर्न: यथार्थवादी त्वचा, विभेदित पृष्ठभूमि और प्राकृतिक रंग में विशेषज्ञ। गर्म, RAW शैली के परिणाम।
- यथार्थवादी विज़न v5.1: चित्रों, भावनाओं और चेहरे के विवरण पर बहुत अच्छी पकड़। पृष्ठभूमि और विषय में बहुत संतुलित।
- मैं विश्वास नहीं कर सकता कि यह फोटोग्राफी नहीं है: बहुमुखी, प्रकाश और कोण में उत्कृष्ट। चित्रों और विभिन्न विषयों के लिए आदर्श।
- फोटॉन V1: गुणवत्ता और बहुमुखी प्रतिभा के बीच संतुलन, विशेष रूप से मानवीय विषयों के लिए।
- यथार्थवादी स्टॉक फोटो: बहुत ही पॉलिश, कैटलॉग शैली की छवियां जिनमें त्वचा पर कोई दाग नहीं है।
- aZovya फोटोरियल: यह उतना प्रसिद्ध नहीं है, लेकिन उत्कृष्ट परिणाम देता है और इसका उपयोग तकनीकों को अन्य मॉडलों के साथ विलय करने के लिए किया जा सकता है।
SDXL (नवीनतम पीढ़ी) के लिए मॉडल:
- जुगरनॉट एक्सएल (x): सिनेमाई रचना, चित्रों में उत्कृष्ट और लंबे संकेतों को समझने में उत्कृष्ट।
- रियलविज़एक्सएल: त्वचा में यथार्थवादी खामियां, बनावट और टोन परिवर्तन उत्पन्न करने में अद्वितीय।
- हेलोवर्ल्ड XL v6.0: यह एक एनालॉग दृष्टिकोण, अच्छा शारीरिक अनुपात और विंटेज सौंदर्यशास्त्र लाता है। अधिक परिष्कृत संकेतों के लिए GPT4v टैगिंग का उपयोग करें।
- सम्मानपूर्वक उल्लेख: फोटोपीडिया एक्सएल, रियलिज्म इंजन एसडीएक्सएल, फुल्ली रियल एक्सएल (कम प्रचलित लेकिन अभी भी मान्य)।
इन सभी मॉडलों को निम्न रिपॉजिटरी से मुफ्त में डाउनलोड किया जा सकता है: सिविटाई, और उन्हें स्थिर प्रसार इंटरफ़ेस में प्रदर्शित करने के लिए उपयुक्त फ़ोल्डर में रखें।
स्टेबल डिफ्यूजन में कस्टम मॉडल कैसे स्थापित और प्रबंधित करें
नया टेम्पलेट डाउनलोड करना बहुत आसान है:
- Civitai जैसी रिपॉजिटरी तक पहुंचें और "चेकपॉइंट्स" द्वारा फ़िल्टर करें।
- अपनी पसंद का मॉडल चुनें (सुनिश्चित करें कि अतिरिक्त सुरक्षा के लिए उसमें .safetensor एक्सटेंशन हो)।
- फ़ाइल डाउनलोड करें और इसे /stable-diffusion-webui/models/Stable-diffusion पथ पर कॉपी करें।
- इंटरफ़ेस को पुनः आरंभ करें और “चेकपॉइंट” पैनल से मॉडल का चयन करें।
स्थिर प्रसार के साथ वास्तव में आश्चर्यजनक चित्र प्राप्त करने के लिए प्रो टिप्स
स्थिर प्रसार में निपुणता प्राप्त करने के लिए प्रयोग करना, परिणामों से सीखना, तथा अपनी तकनीक और कल्पना को निखारना आवश्यक है:
- एम्बेडिंग के साथ खेलें: अपनी छवियों के सौंदर्य को बेहतर बनाने के लिए, मॉडल निर्माताओं द्वारा अनुशंसित एम्बेडिंग का प्रयास करें (उदाहरण के लिए, BadDream, UnrealisticDream, FastNegativeV2, JuggernautNegative-neg)। एम्बेडिंग आपको हाथ, आंखें आदि जैसी विशेषताओं को समायोजित करने की अनुमति देती है।
- चेहरे के विस्तार एक्सटेंशन का उपयोग करें: A1111 के लिए Adetailer एक्सटेंशन या ComfyUI में फेस डिटेलर पाइप नोड आपको चेहरे और हाथों पर दोषरहित परिणाम प्राप्त करने में मदद करेगा, जो विशेष रूप से यथार्थवादी पोर्ट्रेट के लिए उपयोगी है।
- पूर्णतावादियों के लिए कंट्रोलनेट्स: यदि आप हाथों, मुद्राओं या शरीर के साथ मांग कर रहे हैं, तो अपनी रचनाओं को बेहतर बनाने के लिए कंट्रोलनेट के विभिन्न प्रकारों का पता लगाएं।
- परीक्षण त्रुटि विधि: पहली छवि के सही होने की उम्मीद न करें; कुंजी यह है कि जब तक वांछित गुणवत्ता प्राप्त न हो जाए, तब तक पुनरावृत्ति करते रहें, संकेतों को संशोधित करते रहें और नकारात्मकों को समायोजित करते रहें।
- प्रॉम्प्ट की संरचना पर ध्यान दें: विरोधाभासों से बचें (उदाहरण के लिए, एक ही वाक्य में "लंबे बाल" और "छोटे बाल") और शुरुआत में अवधारणाओं को प्राथमिकता दें, जिसका अंतिम छवि में अधिक महत्व होगा।
स्थिर प्रसार की संभावनाओं के इस दौरे के बाद, यह स्पष्ट है कि एआई हमारे सृजन के तरीके में क्रांति ला रहा है, तेजी से आश्चर्यजनक, पेशेवर और प्राकृतिक परिणामों के साथ छवियों का प्रयोग और रूपांतरण करें. यदि आप डिजिटल रचनात्मकता में रुचि रखते हैं, तो एआई विज़ुअल जेनरेशन की दुनिया का पता लगाने के लिए इससे बेहतर समय नहीं है: एक अच्छे संकेत, सही उपकरण और थोड़े अभ्यास के साथ, कोई भी अपनी कल्पना की गई छवियों को जीवन में ला सकता है, साधारण रेखाचित्रों से लेकर हाइपर-यथार्थवादी रचनाओं तक, जो पेशेवर फोटोग्राफी से अलग नहीं हैं।
विभिन्न डिजिटल मीडिया में दस वर्षों से अधिक अनुभव के साथ प्रौद्योगिकी और इंटरनेट मुद्दों में विशेषज्ञ संपादक। मैंने ई-कॉमर्स, संचार, ऑनलाइन मार्केटिंग और विज्ञापन कंपनियों के लिए एक संपादक और सामग्री निर्माता के रूप में काम किया है। मैंने अर्थशास्त्र, वित्त और अन्य क्षेत्रों की वेबसाइटों पर भी लिखा है। मेरा काम भी मेरा जुनून है. अब, मेरे लेखों के माध्यम से Tecnobits, मैं उन सभी समाचारों और नए अवसरों का पता लगाने का प्रयास करता हूं जो प्रौद्योगिकी की दुनिया हमारे जीवन को बेहतर बनाने के लिए हमें हर दिन प्रदान करती है।



