- ComfyUI permet construir fluxos visuals flexibles i reproduïbles per a Stable Diffusion.
- Domina text-to-image, i2i, SDXL, in/outpainting, upscale i ControlNet amb nodes clau.
- Millora amb embeddings, LoRA i nodes personalitzats; utilitza l'Administrador per gestionar-los.
- Optimitza rendiment i estabilitat amb bones pràctiques, dreceres i resolució derrors.
¿Guia definitiva de ComfyUI per a principiants? Si estàs fent els teus primers passos amb ComfyUI i t'aclapara veure tants nodes, caixes i cables, tranquil: aquí trobaràs una guia de veritat, de les que comencen des de zero i no se salten l'important. L'objectiu és que entenguis què fa cada peça, com encaixen entre si i com resoldre els errors típics que desesperen quan s'intenta aprendre només provant.
A més de cobrir els fluxos clàssics de text a imatge, imatge a imatge, inpainting, outpainting, SDXL, upscale, ControlNet, embeddings i LoRA, també integrarem instal·lació, configuració, gestió de nodes personalitzats amb l'administrador, dreceres i una secció pràctica amb recomanacions reals de rendiment en CPU i GPU. I sí, també tocarem com treballar amb vídeo usant models tipus Wan 2.1 (text a vídeo, imatge a vídeo i vídeo a vídeo) dins de l'ecosistema ComfyUI.
Què és ComfyUI i com es compara amb altres GUIs
ComfyUI és una interfície visual basada en nodes construïda sobre Difusió estable que permet muntar fluxos de treball connectant blocs funcionals. Cada node fa alguna cosa concreta (carregar model, codificar text, mostrejar, descodificar) i les vores connecten les entrades i sortides, com si muntessis una recepta visual.
Davant AUTOMATIC1111, ComfyUI destaca per ser lleuger, flexible, transparent i molt fàcil de compartir (cada fitxer de flux és reproduïble). La contrapartida és que la interfície pot variar segons l'autor del workflow i, per a usuaris casuals, exposar tants detalls pot semblar excessiu.
La corba d'aprenentatge se suavitza quan entens el “per què” darrere dels nodes. Pensa en ComfyUI com un tauler on veus el camí complet de la imatge: des del text i el soroll inicial en latents, fins a la descodificació final a píxels.
Instal·lació des de zero: ràpid i sense mals de cap
La forma més directa consisteix a descarregar el paquet oficial per al vostre sistema, descomprimir i executar. No necessites instal·lar Python per separat perquè ve embegut, el que redueix molt la fricció inicial.
Passos bàsics: descarrega el fitxer comprimit, descomprimeix-lo (per exemple, amb 7-Zip) i executa el llançador que et convingui. Si no tens GPU o la teva gràfica no és compatible, fes servir l'executable per a CPU; trigarà més, però funciona.
Perquè tot arrenqui, col·loca almenys un model a la carpeta de checkpoints. Pots obtenir-los de repositoris com Hugging Face o Civitai i ubicar-los a la ruta de models de ComfyUI.
Si ja teniu una biblioteca de models en altres carpetes, editeu el fitxer de rutes extra (extra_model_paths.yaml) traient “example” del nom i afegint les vostres ubicacions. Reinicia ComfyUI perquè detecti els nous directoris.
Controls bàsics i elements de la interfície
Al llenç, el zoom es controla amb la roda del ratolí o gest de pessic, i et desplaces arrossegant amb el botó esquerre. Per connectar nodes, arrossegueu des del connector de sortida al d'entrada, i deixa anar per crear la vora.
ComfyUI maneja una cua d'execució: configura el teu workflow i prem el botó d'encolat. Podeu revisar l'estat des de la vista de cua per veure què està corrent o el que espera.
Dreceres útils: Ctrl+C/Ctrl+V per copiar/enganxar nodes, Ctrl+Shift+V per enganxar mantenint entrades, Ctrl+Enter per encolar, Ctrl+M per silenciar un node. Fes clic al punt de la cantonada superior esquerra per minimitzar un node i aclarir el llenç.
De text a imatge: el flux essencial
El flux mínim inclou carregar el checkpoint, codificar el prompt positiu i negatiu amb CLIP, crear una imatge latent buida, mostrejar amb KSampler i descodificar píxels amb el VAE. Clica el botó d'encolar i obtindràs la teva primera imatge.
Seleccionar el model a Load Checkpoint
El node Load Checkpoint retorna tres components: MODEL (predictor de soroll), CLIP (codificador de text) i VAE (codificador/decodificador d'imatges). MODEL va al KSampler, CLIP als nodes de text i el VAE al descodificador.
Prompts positiu i negatiu amb CLIP Text Encode
Introdueix el teu prompt positiu a dalt i el negatiu a baix; tots dos es codifiquen com a embeddings. Pots ponderar paraules amb la sintaxi (paraula:1.2) o (paraula:0.8) per reforçar o atenuar termes concrets.
Latents buits i mides òptims
Empty Latent Image defineix el llenç a l'espai latent. Per a SD 1.5 es recomana 512×512 o 768×768; per SDXL, 1024×1024. L'amplada i l'alçada han de ser múltiples de 8 per evitar errors i respectar l'arquitectura.
VAE: del latent a píxels
El VAE comprimeix imatges a latents i les reconstrueix a píxels. En text a imatge, normalment només es fa servir al final per descodificar el latent. La compressió accelera el procés però pot introduir petites pèrdues; a canvi, ofereix un control fi a l'espai latent.
KSampler i paràmetres clau
El KSampler aplica difusió inversa per anar traient soroll segons la guia dels embeddings. Llavor, passos, sampler, scheduler i denoise són els dials principals. Més passos solen fer més detall, i denoise=1 reescriu completament el soroll inicial.
Imatge a imatge: refer amb guia
El flux i2i parteix duna imatge dentrada els teus prompts; el denoise controla quant es desvia de l'original. Amb un denoise baix, obtens variacions subtils; amb alt, transformacions profundes.
Seqüència típica: selecciona el checkpoint, carrega la teva imatge com a entrada, ajusta prompts, defineix denoise a KSampler i encola. És ideal per millorar composicions o migrar estils sense començar de zero.
SDXL a ComfyUI
ComfyUI suporta SDXL de forma primerenca gràcies al disseny modular. Simplement utilitza un flux compatible amb SDXL, revisa els prompts i executa. Recorda: les mides nadius més grans demanen més VRAM i temps, però el salt qualitatiu en detall ho compensa.
Inpainting: editar només allò que t'interessa
Quan voleu modificar zones concretes d'una imatge, l'inpainting és l'eina. Carrega la imatge, obre l'editor de màscares, pinta el que vulguis regenerar i guarda al node corresponent. Defineix el teu prompt per guiar l'edició i ajusta el denoise (per exemple, 0.6).
Si utilitzes un model estàndard, funciona amb VAE Encode i Set Noise Latent Mask. Per a models d'inpainting dedicats, canvia aquests nodes per VAE Encode (Inpaint), que està optimitzat per a aquesta tasca.
Outpainting: ampliar les vores del llenç
Per expandir una imatge més enllà dels seus límits, afegeix el node de padding per a outpainting i configura quant creix cada costat. El paràmetre de feathering suavitza la transició entre original i extensió.
En fluxos d'outpainting, ajusta VAE Encode (for Inpainting) i el paràmetre grow_mask_by. Un valor superior a 10 sol oferir integracions més naturals a la zona expandida.
Upscale a ComfyUI: píxel vs latent
Hi ha dues vies: upscale en píxels (ràpid, sense afegir informació nova) i upscale en latent, també anomenat Hi-res Latent Fix, que reinterpreta detalls en escalar. El primer és veloç; el segon enriqueix textures però es pot desviar.
Upscale per algoritme (píxel)
Amb el node de reescalat per mètode podeu triar bicubic, bilinear o nearest-exact i el factor d'escala. És ideal per a previsualitzacions o quan necessites rapidesa sense afegir cost d'inferència.
Upscale amb model (píxel)
Usa Load Upscale Model i el node d'upscale corresponent, tria un model acord (per exemple, realista o animi) i selecciona ×2 o ×4. Els models especialitzats recuperen contorns i nitidesa millor que els algorismes clàssics.
Upscale en latent
Escales el latent i tornes a mostrar amb KSampler per afegir detall coherent amb el prompt. És més lent, però especialment útil quan vols guanyar resolució i complexitat visual.
ControlNet: guia estructural avançada
ControlNet permet injectar mapes de referència (vores, posi, profunditat, segmentació) per dirigir la composició. Combinat amb Stable Diffusion, us dóna un control fi sobre l'estructura sense renunciar a la creativitat del model.
A ComfyUI, la integració és modular: carregues el mapa desitjat, el connectes al bloc ControlNet i ho enllaçes amb el sampler. Prova diferents controladors per veure quin encaixa amb el teu estil i objectiu.
Administrador de ComfyUI: nodes personalitzats sense terminal
L'administrador permet instal·lar i actualitzar nodes personalitzats des de la interfície. El trobareu al menú d'encolat. És la via més simple per mantenir el teu ecosistema de nodes al dia.
Instal·lar nodes faltants
Si un workflow t'avisa de nodes absents, obriu l'Administrador, premeu instal·lar faltants, reinicieu ComfyUI i actualitzeu el navegador. Això resol la majoria de dependències en un parell de clics.
Actualitzar nodes personalitzats
Des de l'Administrador, cerca actualitzacions, instal·la i prem el botó d'actualitzar a cada paquet disponible. Reinicieu ComfyUI per aplicar els canvis i evitar inconsistències.
Carregar nodes al flux
Fes doble clic a una zona buida per obrir el cercador de nodes i escriu el nom del que necessites. Així insereixes ràpidament les peces noves als teus diagrames.
Embeddings (inversió textual)
Els embeddings injecten conceptes o estils entrenats als teus prompts usant la paraula clau embedding:nom. Col·loca els fitxers a la carpeta models/embeddings perquè ComfyUI els detecti.
Si instal·les el paquet d'scripts personalitzats, tindràs autocompletat: comences a escriure embedding: i veuràs la llista disponible. Això accelera molt la iteració quan gestiones moltes plantilles.
També els pots ponderar, per exemple (embedding:Nom:1.2) per reforçar un 20%. Ajusta el pes com faries amb termes normals del prompt per equilibrar estil i contingut.
LoRA: adapta l'estil sense tocar el VAE
Els LoRA modifiquen els components MODEL i CLIP del checkpoint, sense alterar el VAE. Serveixen per injectar estils concrets, personatges o objectes amb arxius lleugers i fàcils de compartir.
Flux bàsic: selecciona el teu checkpoint base, afegeix un o més LoRA i genera. Pots apilar LoRA per combinar estètiques i efectes, ajustant les seves intensitats si el workflow ho permet.
Dreceres, trucs i workflows embeguts
A més de les dreceres comentades, hi ha dos consells molt pràctics: fixa la llavor quan ajustaments nodes llunyans per evitar recomputar tota la cadena, i utilitza grups per moure diversos nodes alhora. Amb Ctrl+arrossega pots seleccionar-ne diversos i amb Shift moure el conjunt.
Una altra funció clau: ComfyUI desa el workflow a les metadades del PNG que genera. Arrossegant el PNG al llenç recuperes tot el diagrama amb un clic. Això facilita compartir i reproduir resultats.
ComfyUI en línia: crear sense instal·lar

Si no vols instal·lar res, hi ha serveis al núvol amb ComfyUI preconfigurat, centenars de nodes i models populars. Són ideals per provar SDXL, ControlNet o fluxos complexos sense tocar el teu PC, i molts inclouen galeries de workflows llestos.
De zero a vídeo: Wan 2.1 a ComfyUI
Alguns nodes personalitzats permeten crear vídeo des de text, transformar una imatge en una seqüència o editar un clip existent. Amb models tipus Wan 2.1 pots muntar pipelins de text a vídeo, imatge a vídeo i vídeo a vídeo directament a ComfyUI.
Instal·la els nodes requerits (via Administrador o manualment), descarrega el model que correspongui i segueix el flux d'exemple: codifiques el prompt i paràmetres de moviment, generes latents per fotogrames i després descodifiques a frames oa un contenidor de vídeo. Recorda que el cost de temps i VRAM creix amb la resolució i la durada.
CPU vs GPU: quin rendiment esperar
Es pot generar amb CPU, però no és ideal en temps. En proves reals, una CPU potent pot trigar uns quants minuts per imatge, mentre que amb una GPU adequada el procés cau a segons. Si tens GPU compatible, fes-la servir per accelerar dràsticament.
A CPU, redueix mida, passos i complexitat de nodes; a GPU, ajusta batch i resolució segons el teu VRAM. Monitoritza el consum per evitar colls d'ampolla i tancaments inesperats.
Nodes personalitzats: instal·lació manual i bones pràctiques
Si preferiu el mètode clàssic, podeu clonar repositoris a la carpeta custom_nodes amb git i després reiniciar. Aquesta via et dóna control fi sobre versions i branques, útil quan necessites funcions específiques.
Mantingues els teus nodes ordenats, amb actualitzacions periòdiques i anotacions sobre compatibilitats. Evita barrejar massa versions experimentals alhora per no introduir errors difícils de rastrejar.
Solució de problemes típica
Si “instal·lar nodes faltants” no et va salvar el dia, revisa la consola/log per a l'error exacte: dependències, rutes o versions. Comprova que ample i alt siguin múltiples de 8 i que els models estiguin a les carpetes correctes.
Quan un workflow no reacciona en seleccionar model, forçar la càrrega d'un checkpoint vàlid sol restaurar el graf. Si un node es trenca després d'actualitzar, proveu de desactivar aquest paquet o tornar a una versió estable.
Llavors fixes, mides ajustades i prompts raonables faciliten depurar. Si el resultat es degrada després de toquetejar massa, torna a un preset bàsic i reintrodueix canvis d'un en un.
Per a ajuda addicional, comunitats com /r/StableDiffusion són molt actives i solen resoldre errors rars. Compartir el log, captures del graf i versions de nodes accelera l'assistència.
Tot això et deixa amb un mapa complet: saps què és cada node, com es connecten, on col·locar els models i què tocar perquè la cua avanci sense sorpreses. Amb fluxos de text a imatge, i2i, SDXL, in/outpainting, upscale, ControlNet, embeddings i LoRA, més vídeo amb Wan 2.1, tens un kit de producció molt seriós llest per créixer amb tu. Per a més informació et deixem la web oficial de ComfyUI.
Apassionat de la tecnologia des de petitó. M'encanta estar a l'última al sector i sobretot, comunicar-ho. Per això em dedico a la comunicació en webs de tecnologia i videojocs des de ja fa molts anys. Podràs trobar-me escrivint sobre Android, Windows, MacOS, iOS, Nintendo o qualsevol altre tema relacionat que et passi pel cap.

