Guide för stabil diffusion 2024: Generera bilder med AI steg för steg

Stable Diffusion är en modell med öppen källkod som låter dig generera realistiska och konstnärliga bilder från text med hjälp av AI.
Det finns flera sätt att använda Stable Diffusion: online, lokalt installerat och avancerade alternativ med anpassade tillägg och mallar.
Bildernas kvalitet beror till stor del på hur prompterna är skrivna och hur deras interna parametrar justeras.
Kreativa möjligheter utökas ytterligare med avancerade verktyg som ControlNet, LoRA och redigeringstekniker inbyggda i själva plattformen.

Universumet av artificiell intelligens har tagit ett stort steg framåt de senaste åren, vilket gör det möjligt för vem som helst, oavsett teknisk kunskap eller konstnärlig erfarenhet, att skapa slående bilder från enkla fraser. Stabil diffusion, en av de mest revolutionerande och hyllade utvecklingarna inom generativ AI, ger dig kraftfulla verktyg nära till hands, både för de som vill experimentera och för design- och illustrationsproffs.

I den här guiden berättar vi absolut allt om Stabil Diffusion. Från nybörjarens första steg till avancerade prompt- och redigeringstekniker, inklusive rekommendationer för verktyg, mallar och tillägg som tar dina skapelser till nästa nivå.

Vad är stabil diffusion och varför har det revolutionerat avbildning?

Stabil diffusion Det är en öppen källkodsmodell för artificiell intelligens som har demokratiserat bildskapande med hjälp av djupinlärningstekniker. Tack vare sin innovativa design, låter dig konvertera en enkel textbeskrivning (prompt) till otroliga bilder, detaljerad och hög kvalitet. Var du än befinner dig kan du dra nytta av dess motor utan att betala något, installera den var du vill och till och med uppgradera den för att passa dina behov, vilket skiljer den från andra kommersiella och slutna lösningar.

Funktionen hos stabil diffusion är baserad på en diffusionsmodellDet börjar med slumpmässigt brus som en död TV och eliminerar, genom flera steg och förbättringar vägledda av din text, det bruset tills det skapar en sammanhängande och visuellt tilltalande bild.

Den här funktionen gör det till en idealiskt val för artister, innehållsskapare, utvecklare och hemanvändare som vill gå bortom traditionella bilder. Att det är öppen källkod öppnar dörren för oändliga anpassningsmöjligheter, integration med proprietära verktyg och lokal generering, utan att förlita sig på tredjepartsservrar eller månadsavgifter om du så önskar.

Vad kan man göra med stabil diffusion?

Stabila diffusionsapplikationer går utöver att bara skapa en bild från text. AI genererar inte bara bilder från grunden, men är också kapabel till:

Redigera befintliga bilder: Du kan ladda upp ett foto och be det att lägga till objekt, ta bort detaljer eller ändra stilen.
Ommålning: utökar kanterna på din komposition från ledtrådarna du ger i prompten.
Fyllning av specifika områden (inmålning): Ändra bara en del av bilden du markerar, till exempel att korrigera en hand, ändra bakgrunden eller förbättra uttrycket i ett ansikte.
Transformera bilder (img2img): Du kan använda en verklig bild som referens så att Stable Diffusion kan omtolka den i en annan stil, ändra ljussättning eller färger...
Kombinera konstnärliga stilar: Den blandar olika tekniker och referenser (till exempel klassisk konst, anime, fotorealism, etc.) i en enda prompt.

Exklusivt innehåll - Klicka här Amazon presenterar Nova AI: multimodal artificiell intelligens med revolutionerande möjligheter

Detta mångsidighet vilket gör den till en idealisk följeslagare för digital kreativitet, illustration, grafisk design och till och med för att generera resurser för videospel, marknadsföringskampanjer eller helt enkelt för att ha kul när man utforskar gränserna för AI.

Hur fungerar stabil diffusion på insidan?

Stabil diffusion uppstår från träning av miljontals bildtexter tack vare stora datamängder (som LAION-5B), där AI lär sig att associera textuella begrepp med visuella mönster. Modellen använder det som kallas diffusionsmodell: förstör först en bild genom att omvandla den till brus, och lär sig sedan att rekonstruera den från grunden baserat på texten som användaren skriver in.

Vid varje steg förfinar modellen bilden, minska brus och öka detaljnivån, tills resultatet närmar sig den scen vi har beskrivit. Dessutom låter Stable Diffusion dig modulera "vikten" på vissa ord för att prioritera (eller dämpa) specifika element i scenen, manipulera stilar och undvika oönskade resultat.

La projektets ständiga utveckling och dess öppenhet för kod har möjliggjort framväxten av otaliga varianter och förbättringar av gemenskapen, såsom nya modeller, stilar och tekniker för att uppnå mycket mer realistiska eller specifika resultat.

Vilka fördelar erbjuder Stable Diffusion jämfört med andra verktyg?

Den största skillnaden mellan stabil diffusion är dess fria och öppna källkodsnatur. Till skillnad från andra modeller som MidJourney eller DALL-E kan du köra den på din egen dator, installera den på servrar, prova nya saker och modifiera den efter eget tycke. Andra anmärkningsvärda fördelar inkluderar:

Gratis (förutom på premiumplattformar)Du kan använda de flesta webbtjänster och lokal installation kostnadsfritt, såvida du inte väljer premiumservrar eller vill ha tillgång till mycket specifika avancerade funktioner.
Privatliv: Du kan skapa avbildningar utan att lämna ditt system, vilket undviker problem med molndata eller långsamma anslutningar.
Modularitet och anpassning: stöder oändligt antal anpassade modeller, stilar, tillägg och community-utvecklade resurser.
Kvalitet och detaljer: Den senaste generationen modeller (SDXL, Juggernaut, Realistic Vision, etc.) konkurrerar med och överträffar ofta betald bildproduktion.

Mot bakgrund av detta måste även vissa svagheter eller kvarstående problem påpekas. Framför allt bör det noteras att stabil diffusion presenterar en brantare inlärningskurva än andra lösningar reklamfilmer.

Komma igång: Så här installerar och konfigurerar du stabil diffusion lokalt

Att installera Stable Diffusion på din dator är enklare än det verkar, särskilt med det populära gränssnittet. Automatisk 1111, vilket har förenklat processen så mycket som möjligt för Windows.

Gå till det officiella arkivet för Automatisk 1111 på GitHub, leta efter avsnittet "tillgångar" och ladda ner installationsprogrammet (.exe).
Kör den nedladdade filen. Installationsprocessen kan ta lite tid beroende på datorns hastighet.
När du är klar har du en genväg som heter "A1111 WebUI" på skrivbordet eller i en målmapp. Genom att dubbelklicka öppnas det grafiska gränssnittet i din webbläsare, redo att börja skapa.
Vi rekommenderar att du aktiverar automatiska uppdateringar för gränssnittet och tilläggen, samt alternativet "lågt VRAM" om din dator inte är särskilt kraftfull.

Exklusivt innehåll - Klicka här Hur är det med Live Line?

Om du använder Mac eller Linux finns det specifika guider för att installera Stable Diffusion från deras open source-arkiv.

Hur man skriver effektiva prompter i Stable Diffusion: struktur, syntax och tips

Hur framgångsrika dina bilder blir beror nästan helt på uppmaningen. En bra struktur gör att du kan uppnå professionella resultat och väldigt annorlunda än de som genereras med vaga beskrivningar.

En rekommenderad uppmaning bör ange:

Bildtyp: fotografi, teckning, illustration, 3D-rendering etc.
Ämne: Vilka som syns på bilden (person, djur, föremål…), med alla detaljer du önskar (ålder, etnicitet, uttryck, etc.)
Handling: vad håller den där killen på med?
Kontext/scenario: var scenen utspelar sig, ljussättning, årstid, dominerande färger etc.
Modifierare: målarstil, objektiv och kamera, tid på dagen, färgpalett, referenskonstnärer, upplösning, kvalitet, specialeffekter som bokeh, oskärpa, texturering...

För negativa uppmaningar, lägg helt enkelt till alla funktioner du INTE vill ha i bilden: ”suddiga, fula, missbildade händer, för många fingrar, text, vattenstämplar, låg upplösning, felaktiga proportioner, morbid, dubbletter…” och allt annat som stör dig i resultatet.

Hur förbättrar man prompter i Stable Diffusion?

För att uppnå bästa resultat, följ dessa tips. Det är lämpligt att justera vikterna och programmeringen korrekt. Stabil diffusion låter dig ge mer eller mindre betydelse åt vissa ord med hjälp av syntax "ord:faktor". Ju högre word:factor-värdet är, desto mer relevant blir termen; Du kan använda ytterligare parenteser för att ytterligare öka vikten av ett ord eller begrepp.

Dessutom låter syntaxdriven promptprogrammering dig kombinera idéer eller stilar i en enda bild, vilket gör att övergången från ett koncept till ett annat följer de steg du definierar.

Om du har kört fast eller letar efter snabb inspiration, låter plattformar som Lexica, Civitai eller Stable Diffusions egen PNG-infoflik dig dra AI-genererade bilder och se exakt vilken prompt som användes för att skapa dem.

De bästa modellerna för stabil diffusion för hyperrealistiska och konstnärliga bilder

Det stabila diffusionsuniversumet är mycket bredare än dess grundläggande modeller. Det finns för närvarande en mängd specialanpassade modeller (checkpoints) anpassade till specifika stilar, såsom fotorealism, anime, teknisk illustration, etc. Några av de mest rekommenderade och populära är:

Modeller för SD 1.5:

Juggernaut Rborn: Specialist på realistisk hud, differentierade bakgrunder och naturliga färger. Varma resultat i RAW-stil.
Realistisk vision v5.1: Bra behärskning av porträtt, känslor och ansiktsdetaljer. Mycket balanserad i bakgrunder och motiv.
Jag kan inte fatta att det inte är fotografi: Mångsidig, utmärkt i ljussättning och vinklar. Perfekt för porträtt och olika teman.
Foton V1: Balans mellan kvalitet och mångsidighet, särskilt för mänskliga teman.
Realistiskt stockfoto: Mycket polerade bilder i katalogstil utan hudfläckar.
aZovya Photoreal: Inte lika välkänd men ger enastående resultat och kan användas för att sammanfoga tekniker med andra modeller.

Exklusivt innehåll - Klicka här Hur man återställer Wiko

Modeller för SDXL (senaste generationen):

Juggernaut XL (x): Filmisk komposition, utmärkt i porträtt och förståelse för långa uppmaningar.
RealVisXL: Oöverträffad när det gäller att skapa realistiska ojämnheter, texturer och tonförändringar i huden.
HelloWorld XL v6.0: Den har ett analogt tillvägagångssätt, bra kroppsproportioner och vintageestetik. Använd GPT4v-taggning för mer sofistikerade uppmaningar.
Hedersomnämnanden: PhotoPedia XL, Realism Engine SDXL, Fully Real XL (mindre aktuell men fortfarande giltig).

Alla dessa modeller kan laddas ner gratis från arkiv som Civitaioch placera dem helt enkelt i lämplig mapp så att de visas i Stable Diffusion-gränssnittet.

Hur man installerar och hanterar anpassade modeller i Stable Diffusion

Att ladda ner en ny mall är så enkelt som:

Få åtkomst till arkiv som Civitai och filtrera efter "Kontrollpunkter".
Välj den modell du vill ha (se till att den har filändelsen .safetensor för ökad säkerhet).
Ladda ner filen och kopiera den till sökvägen /stable-diffusion-webui/models/Stable-diffusion.
Starta om gränssnittet och välj modellen från panelen "Kontrollpunkt".

Proffstips för att få verkligt fantastiska bilder med stabil diffusion

Att bemästra stabil diffusion innebär att experimentera, lära av resultaten och finslipa din teknik och fantasi:

Lek med inbäddningar: För att finjustera dina bilders estetik kan du prova inbäddningar som rekommenderas av modellskaparna (t.ex. BadDream, UnrealisticDream, FastNegativeV2, JuggernautNegative-neg). Inbäddningar låter dig justera funktioner som händer, ögon etc.
Använd ansiktsförlängningar: Adetailer-tillägget för A1111 eller noden Face Detailer Pipe i ComfyUI hjälper dig att uppnå felfria resultat på ansikten och händer, särskilt användbart för realistiska porträtt.
ControlNets för perfektionister: Om du är krävande med händer, poser eller kroppar, utforska de olika typerna av ControlNet för att finjustera dina kompositioner.
Försök och fel: Förvänta dig inte att den första bilden är perfekt; Nyckeln är att iterera, modifiera prompter och justera negativ tills önskad kvalitet uppnås.
Var uppmärksam på uppmaningens struktur: Undvik motsägelser (till exempel ”långt hår” och ”kort hår” i samma mening) och prioritera begrepp i början, vilka kommer att få större tyngd i den slutliga bilden.

Efter denna rundtur i möjligheterna med stabil diffusion är det tydligt att AI revolutionerar hur vi skapar, experimentera och förvandla bilder med alltmer överraskande, professionella och naturliga resultat. Om du är intresserad av digital kreativitet finns det ingen bättre tid att utforska världen av visuell generering med AI: med en bra uppmaning, rätt verktyg och lite övning kan vem som helst förverkliga de bilder de föreställer sig, från enkla skisser till hyperrealistiska kompositioner som inte går att skilja från professionell fotografering.

Daniel Terrasa

Redaktör specialiserad på teknik och internetfrågor med mer än tio års erfarenhet av olika digitala medier. Jag har arbetat som redaktör och innehållsskapare för e-handel, kommunikation, onlinemarknadsföring och reklamföretag. Jag har också skrivit på ekonomi, finans och andra sektorers webbplatser. Mitt arbete är också min passion. Nu genom mina artiklar i Tecnobits, Jag försöker utforska alla nyheter och nya möjligheter som teknikvärlden erbjuder oss varje dag för att förbättra våra liv.