Kompletny przewodnik po ComfyUI dla początkujących

ComfyUI umożliwia tworzenie elastycznych i powtarzalnych przepływów wizualnych dla Stable Diffusion.
Opanuj przetwarzanie tekstu na obraz, i2i, SDXL, malowanie na zewnątrz/wszerz, skalowanie i ControlNet za pomocą kluczowych węzłów.
Ulepszaj za pomocą osadzenia, LoRA i niestandardowych węzłów; użyj Menedżera, aby nimi zarządzać.
Zoptymalizuj wydajność i stabilność, korzystając z najlepszych praktyk, skrótów i rozwiązywania problemów.

¿Najlepszy przewodnik po ComfyUI dla początkujących? Jeśli stawiasz pierwsze kroki w ComfyUI i przytłacza Cię liczba węzłów, pudełek i kabli, nie przejmuj się: tutaj znajdziesz prawdziwy przewodnik, taki, który pomoże Ci zacząć od podstaw i nie pominie niczego istotnego. Celem jest zrozumienie, do czego służy każdy element, jak są one ze sobą powiązane i jak rozwiązywać typowe błędy. które są frustrujące, gdy próbujesz uczyć się wyłącznie poprzez eksperymentowanie.

Oprócz omówienia klasycznych procesów przetwarzania tekstu na obraz, obrazu na obraz, malowania, malowania na zewnątrz, SDXL, skalowania w górę, ControlNet, osadzania i przepływów pracy LoRA, zintegrujemy również instalację, konfigurację, zarządzanie węzłami niestandardowymi z AdministratoremSkróty i praktyczna sekcja z rzeczywistymi zaleceniami dotyczącymi wydajności procesora i karty graficznej. I tak, omówimy również... Jak pracować z wideo przy użyciu modeli typu WAN 2.1 (tekst na wideo, obraz na wideo i wideo na wideo) w ekosystemie ComfyUI.

Czym jest ComfyUI i jak wypada w porównaniu z innymi interfejsami graficznymi?

ComfyUI to wizualny interfejs oparty na węzłach, zbudowany na Stabilna dyfuzja który umożliwia konfigurację przepływów pracy poprzez łączenie bloków funkcjonalnych. Każdy węzeł wykonuje określone zadanie (ładowanie modelu, kodowanie tekstu, próbkowanie, dekodowanie) a krawędzie łączą wejścia i wyjścia, jakbyś układał wizualny przepis.

W porównaniu do AUTOMATIC1111, ComfyUI wyróżnia się tym, że Lekkie, elastyczne, przejrzyste i bardzo łatwe do udostępniania (Każdy plik przepływu pracy jest powtarzalny). Wadą jest to, że interfejs może się różnić w zależności od autora przepływu pracy, a dla użytkowników okazjonalnych, Wchodzenie w tak wiele szczegółów może wydawać się przesadą..

Proces uczenia się staje się łatwiejszy, gdy zrozumiesz „dlaczego” stoją za węzłami. Wyobraź sobie ComfyUI jako pulpit nawigacyjny, na którym widzisz pełną ścieżkę obrazu:od początkowego tekstu i szumu w formie utajonej, do ostatecznego zdekodowania na piksele.

Instalacja od podstaw: szybka i bezproblemowa

Najbardziej bezpośrednią metodą jest pobranie oficjalnego pakietu dla swojego systemu, rozpakowanie go i uruchomienie. Nie musisz instalować Pythona osobno, ponieważ jest on wbudowany., co znacznie zmniejsza początkowe tarcie.

Podstawowe kroki: Pobierz skompresowany plik, rozpakuj go (na przykład za pomocą programu 7-Zip) i uruchom wybrany przez siebie program uruchamiający. Jeśli nie masz procesora graficznego lub Twoja karta graficzna nie jest z nim kompatybilna, użyj pliku wykonywalnego procesora.Zajmie to więcej czasu, ale zadziała.

Aby rozpocząć, umieść co najmniej jeden model w folderze punktów kontrolnych. Można je pobrać z repozytoriów takich jak Hugging Face czy Civitai i umieść je w ścieżce modelu ComfyUI.

Jeśli posiadasz już bibliotekę modeli w innych folderach, edytuj plik dodatkowych ścieżek (extra_model_paths.yaml), usuwając „example” z nazwy i dodając swoje lokalizacje. Uruchom ponownie ComfyUI, aby wykrył nowe katalogi.

Podstawowe elementy sterujące i interfejs

Na płótnie powiększenie kontroluje się za pomocą kółka myszy lub gestu szczypania, a przewijanie odbywa się poprzez przeciąganie lewym przyciskiem myszy. Aby połączyć węzły, przeciągnij je z łącznika wyjściowego do łącznika wejściowego.i puść, aby utworzyć krawędź.

ComfyUI zarządza kolejką wykonań: skonfiguruj swój przepływ pracy i naciśnij przycisk kolejki. Możesz sprawdzić status w widoku kolejki, aby zobaczyć, co jest uruchomione. lub czego on/ona oczekuje.

Ekskluzywna zawartość — kliknij tutaj Jak tworzyć realistyczne awatary za pomocą Stable Diffusion i ComfyUI

Przydatne skróty: Ctrl+C/Ctrl+V do kopiowania/wklejania węzłów, Ctrl+Shift+V do wklejania z zachowaniem wpisów, Ctrl+Enter do umieszczania w kolejce, Ctrl+M do wyciszenia węzła. Kliknij kropkę w lewym górnym rogu, aby zminimalizować węzeł i wyczyścić obszar roboczy.

Od tekstu do obrazu: podstawowy przepływ

Minimalny przebieg procesu obejmuje załadowanie punktu kontrolnego, zakodowanie pozytywnego i negatywnego sygnału zachęty za pomocą CLIP, utworzenie pustego obrazu utajonego, próbkowanie za pomocą KSampler i dekodowanie do pikseli za pomocą VAE. Naciśnij przycisk kolejki, a otrzymasz swój pierwszy obraz.

Wybierz model w punkcie kontrolnym ładowania

Węzeł punktu kontrolnego ładowania zwraca trzy komponenty: MODEL (predyktor szumu), CLIP (koder tekstu) i VAE (koder/dekoder obrazu). MODEL trafia do KSampler, CLIP do węzłów tekstowych, a VAE do dekodera..

Monity pozytywne i negatywne z kodowaniem tekstu CLIP

Wprowadź powyżej swój pozytywny monit, a poniżej negatywny; oba są zakodowane jako osadzenia. Możesz ważyć słowa za pomocą składni (słowo:1.2) lub (słowo:0.8) aby wzmocnić lub złagodzić określone terminy.

Utajone pustki i optymalne rozmiary

Pusty obraz ukryty definiuje płótno w przestrzeni ukrytej. W przypadku SD 1.5 zalecana jest rozdzielczość 512×512 lub 768×768, a w przypadku SDXL — 1024×1024.Szerokość i wysokość muszą być wielokrotnościami liczby 8, aby uniknąć błędów i zachować zgodność z architekturą.

VAE: od utajonego do pikseli

VAE kompresuje obrazy do wartości ukrytych i rekonstruuje je do pikseli. W konwersji tekstu na obraz, jest on zazwyczaj używany dopiero na końcu, do dekodowania wartości ukrytej. Kompresja przyspiesza proces, ale może powodować niewielkie stratyW zamian oferuje precyzyjną kontrolę w przestrzeni ukrytej.

KSampler i kluczowe parametry

KSampler stosuje odwrotną dyfuzję w celu usunięcia szumu zgodnie z wytycznymi dotyczącymi osadzeń. Ziarno, kroki, próbnik, harmonogram i odszumianie To są główne pokrętła. Więcej kroków zazwyczaj zapewnia więcej szczegółów, a denoise=1 całkowicie zmienia początkowy szum.

Obraz po obrazie: powtórz z przewodnikiem

Przepływ danych i2i rozpoczyna się od obrazu wejściowego i monitów; funkcja odszumiania kontroluje, jak bardzo obraz odbiega od oryginału. Przy niskim poziomie szumów można uzyskać subtelne zmiany, przy wysokim — głębokie transformacje..

Typowa sekwencja: wybierz punkt kontrolny, wczytaj obraz jako dane wejściowe, dostosuj monity, zdefiniuj odszumianie w KSampler i dodaj do kolejki. Idealnie nadaje się do udoskonalania kompozycji lub przenoszenia stylów bez konieczności zaczynania od zera..

SDXL na ComfyUI

ComfyUI oferuje wczesną obsługę SDXL dzięki modułowej konstrukcji. Wystarczy użyć przepływu zgodnego z SDXL, sprawdzić komunikaty i uruchomić go. Pamiętaj: większe rozmiary natywne wymagają większej pamięci VRAM i czasu przetwarzania.Jednakże jakościowy skok w szczegółach rekompensuje tę niedogodność.

Inpainting: edytuj tylko to, co Cię interesuje

Jeśli chcesz zmodyfikować określone obszary obrazu, skorzystaj z narzędzia do retuszu. Wczytaj obraz, otwórz edytor masek, pomaluj to, co chcesz zregenerować, i zapisz to w odpowiednim węźle. Zdefiniuj monit, aby pokierować edycją i dostosować poziom szumów (na przykład 0.6).

Jeśli używasz standardowego modelu, współpracuje on z kodowaniem VAE i funkcją Set Noise Latent Mask. W przypadku dedykowanych modeli malowania należy zastąpić te węzły programem VAE Encode (Inpaint), który jest zoptymalizowany do tego zadania.

Malowanie zewnętrzne: powiększanie krawędzi płótna

Aby rozszerzyć obraz poza jego granice, dodaj węzeł wypełnienia dla funkcji malowania zewnętrznego i skonfiguruj, o ile powiększa się każda strona. Parametr wtapiania wygładza przejście między oryginałem a rozszerzeniem.

W przepływach outpaintingu dostosuj kodowanie VAE (w celu inpaintingu) oraz parametr grow_mask_by. Wartość wyższa niż 10 zazwyczaj zapewnia bardziej naturalne integracje na obszarze rozszerzonym.

Ekskluzywna zawartość — kliknij tutaj Legion Go S ze SteamOS: porównanie wydajności i wrażeń w rzeczywistych warunkach z systemem Windows 11 w grach przenośnych

Upscale w ComfyUI: piksel kontra utajony

Istnieją dwie metody: skalowanie pikseli (szybkie, bez dodawania nowych informacji) i ukryte skalowanie, zwane także Hi-res Latent Fix, które reinterpretuje szczegóły podczas skalowania. Pierwszy jest szybki, drugi wzbogaca tekstury, ale może się różnić.

Skalowanie oparte na algorytmie (piksel)

Za pomocą metody przeskalowania węzła można wybrać metodę bisześcienną, biliniową lub najbliższą dokładną, a także współczynnik skali. Idealnie nadaje się do podglądów i sytuacji, gdy potrzebna jest szybkość. bez dodawania kosztów wnioskowania.

Upscale z modelem (piksel)

Użyj opcji Załaduj model skalowalny i odpowiadającego mu węzła skalowalnego, wybierz odpowiedni model (np. realistyczny lub anime) i wybierz ×2 lub ×4. Specjalistyczne modele odzyskują kontury i ostrość lepiej niż klasyczne algorytmy.

Ekskluzywny w utajonym

Skaluj dane ukryte i przeprowadź ponowne próbkowanie za pomocą KSampler, aby dodać szczegóły zgodne z monitem. Jest wolniejszy, ale szczególnie przydatny, gdy chcesz uzyskać większą rozdzielczość i złożoność wizualną..

ControlNet: Zaawansowany przewodnik strukturalny

ControlNet umożliwia wstrzykiwanie map referencyjnych (krawędzie, poza, głębia, segmentacja) w celu kierowania kompozycją. W połączeniu ze stabilną dyfuzją zapewnia doskonałą kontrolę nad strukturą bez poświęcania kreatywności modelu.

W ComfyUI integracja jest modułowa: ładujesz potrzebną mapę, łączysz ją z blokiem ControlNet i linkujesz do próbnika. Wypróbuj różne kontrolery, aby znaleźć ten, który najbardziej odpowiada Twojemu stylowi i celowi..

Administrator ComfyUI: Węzły niestandardowe bez terminala

Menedżer umożliwia instalację i aktualizację węzłów niestandardowych z poziomu interfejsu. Znajdziesz go w menu kolejkowania. To najprostszy sposób na aktualizowanie ekosystemu węzłów.

Zainstaluj brakujące węzły

Jeśli przepływ pracy wyświetli alert o brakujących węzłach, otwórz Menedżera, kliknij Zainstaluj brakujące, uruchom ponownie ComfyUI i zaktualizuj przeglądarkę. Dzięki temu większość zależności zostanie rozwiązana za pomocą kilku kliknięć..

Aktualizuj węzły niestandardowe

W Menedżerze sprawdź dostępność aktualizacji, zainstaluj je i kliknij przycisk aktualizacji przy każdym dostępnym pakiecie. Uruchom ponownie ComfyUI, aby zastosować zmiany. i uniknąć nieścisłości.

Załaduj węzły do przepływu

Kliknij dwukrotnie pusty obszar, aby otworzyć wyszukiwarkę węzłów i wpisz nazwę potrzebnego węzła. Oto jak szybko wstawiać nowe elementy do diagramów.

Osadzenia (inwersja tekstu)

Osadzenia polegają na wstrzyknięciu wyuczonych koncepcji lub stylów do monitów za pomocą słowa kluczowego embedding:name. Umieść pliki w folderze models/embeddings, aby ComfyUI mógł je wykryć..

Jeśli zainstalujesz pakiet niestandardowych skryptów, będziesz miał włączoną funkcję autouzupełniania: zacznij wpisywać „embedding:”, a zobaczysz dostępną listę. Znacznie przyspiesza to iterację przy zarządzaniu wieloma szablonami..

Można im również nadać wagę, na przykład (embedding:Name:1.2), aby wzmocnić je o 20%. Dostosuj wagę tak, jak robisz to w przypadku zwykłych terminów aby zrównoważyć styl i treść.

LoRA: dostosowuje styl bez ingerencji w VAE

LoRA modyfikuje komponenty MODEL i CLIP punktu kontrolnego, nie zmieniając VAE. Służą do wstrzykiwania określonych stylów, znaków lub obiektów z lekkimi i łatwymi do udostępniania plikami.

Podstawowy przepływ: Wybierz swój punkt kontrolny bazowy, dodaj jedną lub więcej aplikacji LoRA i wygeneruj. Można łączyć LoRA w celu łączenia estetyki i efektów.dostosowując ich intensywność, jeśli pozwala na to przepływ pracy.

Skróty, triki i osadzone przepływy pracy

Oprócz wspomnianych skrótów, istnieją dwie bardzo praktyczne wskazówki: napraw ziarno podczas dostosowywania odległych węzłów, aby uniknąć ponownego obliczenia całego łańcucha, i używaj grup, aby przenosić wiele węzłów jednocześnie. Za pomocą kombinacji klawiszy Ctrl + przeciągnięcie możesz wybrać wiele elementów, a za pomocą klawisza Shift możesz przenieść grupę..

Ekskluzywna zawartość — kliknij tutaj TAG Heuer Connected Calibre E5: skok w kierunku autorskiego oprogramowania i edycji New Balance

Kolejna kluczowa funkcja: ComfyUI zapisuje przepływ pracy w metadanych generowanego pliku PNG. Przeciągnięcie pliku PNG na płótno umożliwia pobranie całego diagramu jednym kliknięciemDzięki temu udostępnianie i odtwarzanie wyników jest łatwiejsze.

ComfyUI online: twórz bez instalowania

Comfyui

Jeśli nie chcesz niczego instalować, możesz skorzystać z usług w chmurze z wstępnie skonfigurowanym ComfyUI, setkami węzłów i popularnymi modelami. Idealnie nadają się do testowania SDXL, ControlNet lub złożonych przepływów pracy bez konieczności dotykania komputera.i wiele z nich zawiera galerie gotowych przepływów pracy.

Od podstaw do wideo: WAN 2.1 na ComfyUI

Niektóre niestandardowe węzły umożliwiają tworzenie wideo z tekstu, przekształcanie obrazu w sekwencję lub edycję istniejącego klipu. Dzięki modelom typu WAN 2.1 można skonfigurować potoki tekst-wideo, obraz-wideo i wideo-wideo bezpośrednio w ComfyUI.

Zainstaluj wymagane węzły (za pośrednictwem administratora lub ręcznie), pobierz odpowiedni model i postępuj zgodnie z przykładowym przepływem pracy: zakoduj parametry monitu i ruchu, wygeneruj opóźnienia klatka po klatce, a następnie zdekoduj do klatek lub kontenera wideo. Pamiętaj, że koszt czasu i pamięci VRAM wzrasta wraz z rozdzielczością i czasem trwania.

Procesor kontra GPU: jakiej wydajności się spodziewać

Można go wygenerować za pomocą procesora, ale nie jest to rozwiązanie idealne pod względem szybkości. W testach przeprowadzonych w warunkach rzeczywistych, wydajny procesor może potrzebować kilku minut na każdy obraz, podczas gdy z odpowiednim procesorem graficznym proces ten skraca się do kilku sekund. Jeśli masz kompatybilny procesor graficzny, użyj go, aby znacznie zwiększyć wydajność..

W przypadku procesora CPU należy zmniejszyć rozmiar, liczbę kroków i złożoność węzła; w przypadku procesora GPU należy dostosować partię i rozdzielczość zgodnie z pamięcią VRAM. Monitoruj zużycie, aby uniknąć wąskich gardeł i nieoczekiwanych zamknięć.

Węzły niestandardowe: ręczna instalacja i najlepsze praktyki

Jeśli wolisz klasyczną metodę, możesz sklonować repozytoria w folderze custom_nodes za pomocą gita, a następnie ponownie uruchomić komputer. Ta metoda zapewnia Ci pełną kontrolę nad wersjami i gałęziami.przydatne, gdy potrzebujesz konkretnych funkcji.

Utrzymuj porządek w swoich węzłach dzięki regularnym aktualizacjom i notatkom o zgodności. Unikaj jednoczesnego łączenia zbyt wielu wersji eksperymentalnych. aby uniknąć błędów, które trudno wykryć.

Typowe rozwiązywanie problemów

Jeśli polecenie „zainstaluj brakujące węzły” nie rozwiązało problemu, sprawdź w konsoli/logu dokładny opis błędu: zależności, ścieżki lub wersje. Sprawdź, czy szerokość i wysokość są wielokrotnościami liczby 8 i czy szablony znajdują się w odpowiednich folderach..

Gdy przepływ pracy nie reaguje na wybór modelu, wymuszenie załadowania prawidłowego punktu kontrolnego zwykle przywraca graf. Jeśli po aktualizacji węzeł ulegnie awarii, spróbuj wyłączyć pakiet lub powrócić do wersji stabilnej..

Stałe ziarna, dostosowane rozmiary i rozsądne monity ułatwiają debugowanie. Jeśli po dłuższym okresie modyfikacji efekt ulegnie pogorszeniu, należy powrócić do podstawowego ustawienia i wprowadzać zmiany pojedynczo..

Dodatkową pomoc można uzyskać, będąc w społecznościach takich jak /r/StableDiffusion, które są bardzo aktywne i często rozwiązują rzadkie błędy. Udostępnianie dziennika, przechwytywania wykresów i wersji węzłów przyspiesza obsługę.

Wszystko, co zostało powiedziane powyżej, daje Ci kompletną mapę: wiesz, czym jest każdy węzeł, jak są one połączone, gdzie umieścić modele i czego dotknąć, aby kolejka przesuwała się płynnie. Dzięki przepływom pracy związanym z zamianą tekstu na obraz, i2i, SDXL, funkcji in/outpainting, skalowaniu, ControlNet, osadzaniu i LoRA, a także obsłudze wideo za pomocą WAN 2.1, masz do dyspozycji bardzo poważny zestaw produkcyjny. Gotowi do rozwoju razem z Tobą. Więcej informacji znajdziesz w Oficjalna strona internetowa ComfyUI.

Powiązany artykuł:

Co oznacza termin „stabilna dyfuzja” i do czego służy?

Cristian Garcia

Od najmłodszych lat pasjonat technologii. Uwielbiam być na bieżąco w branży i przede wszystkim ją komunikować. Dlatego od wielu lat zajmuję się komunikacją w serwisach poświęconych technologii i grom wideo. Możesz znaleźć mnie piszącego o Androidzie, Windowsie, MacOS, iOS, Nintendo lub jakimkolwiek innym pokrewnym temacie, który przyjdzie Ci do głowy.