Cách tạo avatar chân thực với Stable Diffusion và ComfyUI

Cập nhật lần cuối: 21/10/2025
Tác giả: Cristian Garcia

  • IP-Adapter/InstantID và LoRA là sự kết hợp mạnh mẽ nhất để thiết lập danh tính với nhiều biến thể về tư thế, ánh sáng và nền.
  • Kiểm soát nhiễu, CFG và seed tạo nên sự khác biệt trong việc duy trì tính nhất quán của khuôn mặt giữa các cảnh quay.
  • Chỉ cần một bức ảnh là khả thi, nhưng LoRA với 10–30 bức ảnh sẽ làm tăng đáng kể tính nhất quán.
  • Cộng đồng /r/StableDiffusion và ComfyUI cung cấp các luồng phát trực tuyến và hỗ trợ theo các quy tắc của SFW và thái độ đối xử thân thiện.

Cách tạo avatar chân thực với Stable Diffusion + ComfyUI

¿Làm thế nào để tạo avatar chân thực bằng Stable Diffusion + ComfyUI? Việc tạo ra một hình đại diện chân thực và nhất quán với Stable Diffusion và ComfyUI là mục tiêu ngày càng dễ đạt được, nhưng đòi hỏi một chút kỹ thuật và khả năng phán đoán tốt. Điều quan trọng là phải giữ nguyên bản sắc (khuôn mặt, kiểu tóc, cấu trúc) trong khi thay đổi bối cảnh, ánh sáng và biểu cảm., thường đòi hỏi sự kết hợp giữa quy trình làm việc, các nút cụ thể và đôi khi là các mô hình phụ trợ như LoRA hoặc nhúng.

Nhiều người dùng gặp phải vấn đề tương tự: với một hình ảnh tham chiếu, họ có được sự tương đồng tốt trong một lần chụp, nhưng ở lần chụp tiếp theo, kiểu tóc hoặc màu mắt lại thay đổi. Bạn đã nghe về nhúng (đảo ngược văn bản), LoRA và ControlNet, và việc tự hỏi phương pháp nào phù hợp với mình là điều bình thường.; Ngoài ra, các tùy chọn như IP-Adapter và InstantID tiếp tục xuất hiện để cải thiện tính nhất quán trên khuôn mặt. Trong bài viết này, chúng tôi sẽ giải quyết những câu hỏi thường gặp nhất: liệu một tham chiếu duy nhất có đủ không, liệu nên cấu hình LoRA hay sử dụng nhúng, và những nút/cấu hình nào hoạt động tốt nhất trong ComfyUI để đạt được hình đại diện ổn định.

Chúng ta hiểu thế nào là tính nhất quán trong một avatar?

Khi nói về tính nhất quán, ý chúng tôi là tính nhất quán phải được nhận dạng trên nhiều hình ảnh. Nó liên quan đến việc duy trì các đặc điểm thiết yếu (hình dạng khuôn mặt, mắt, mũi, môi, tóc) và "cảm giác" của chủ thể ngay cả khi chúng ta tạo dáng, mở miệng, ánh sáng mạnh hoặc phông nền phức tạp.

Sự gắn kết này xuất phát từ việc “neo giữ” bản sắc trong quá trình tạo ra. Nếu mô hình không nhận được đủ tín hiệu về chủ thể, nó sẽ có xu hướng ứng biến và đi chệch hướng.; đó là lý do tại sao việc sử dụng các tham chiếu trực quan, mô-đun nhận dạng hoặc các điều chỉnh tùy chỉnh nhỏ (LoRA, nhúng) để củng cố tính tương đồng là hợp lý.

Ngoài ra, cần phải phân biệt những yếu tố nào có thể thay đổi mà không phá vỡ bản sắc và những yếu tố nào thì không. Bối cảnh, trang phục, biểu cảm và cách bố trí ánh sáng là những biến số an toàn; hình dạng mắt, màu mống mắt, đường chân tóc và cấu trúc xương, không nhiều lắm. Việc tinh chỉnh ranh giới đó là một phần quan trọng của công việc.

Có thể đạt được điều này chỉ với một hình ảnh trong ComfyUI không?

Câu trả lời ngắn gọn là: có, nhưng sẽ có một số sắc thái. Chỉ cần một bức ảnh duy nhất là đủ nếu bạn sử dụng các kỹ thuật nhận dạng khuôn mặt như IP-Adapter (FaceID) hoặc InstantID và kiểm soát mức độ nhiễu. trong img2img hoặc cường độ điều kiện. Tất nhiên, ảnh phải rõ nét, đủ sáng, chụp chính diện hoặc bán nghiêng, với các đường nét rõ ràng.

Với ComfyUI, cách tiếp cận thông thường là kết hợp một nút tham chiếu khuôn mặt với một lời nhắc được xác định rõ ràng và một trình lấy mẫu ổn định. Điều kiện thị giác “đẩy” người mẫu tôn trọng các đặc điểm, trong khi lời nhắc quyết định phong cách, bối cảnh hoặc ánh sángNếu bạn cần nhiều tư thế thay đổi, hãy sử dụng ControlNet (OpenPose) để hướng dẫn tư thế mà không làm biến dạng khuôn mặt.

Tuy nhiên, một hình ảnh đơn lẻ cũng có giới hạn: nó có thể "học quá mức" biểu cảm hoặc ánh sáng cụ thể trong bức ảnh đó. Nếu bạn đang tìm kiếm độ trung thực và tính linh hoạt tối đa, 6–20 hình ảnh tham chiếu sẽ cải thiện khả năng khái quát hóa.và nếu cần, một LoRA nhẹ được đào tạo trên ảnh của bạn sẽ cung cấp tính nhất quán vượt trội giữa các lần chụp.

Nhúng, LoRA hoặc Tinh chỉnh: Cách lựa chọn

Có ba cách chính để tùy chỉnh danh tính: nhúng (đảo ngược văn bản), LoRA và tinh chỉnh hoàn toàn. Nhúng dạy cho CLIP một mã thông báo mới đại diện cho chủ thể của bạn., với ít MB và tốc độ đào tạo khá nhanh, nhưng sức mạnh của nó bị hạn chế so với LoRA.

Nội dung độc quyền - Bấm vào đây  Cách đo độ trễ DPC trong Windows và phát hiện chương trình gây ra lỗi cắt nhỏ

Mặt khác, LoRA được đào tạo bài bản sẽ đưa năng lực vào các lớp của mô hình để nắm bắt các đặc điểm chính xác hơn. Với 10–30 bức chân dung khác nhau (góc chụp, biểu cảm, ánh sáng) và quá trình đào tạo vừa phải, bạn có thể đạt được độ nhất quán rất cao. ở định dạng SD 1.5 hoặc SDXL, trong khi vẫn giữ được kích thước tệp nhỏ (vài chục MB). Đây là mức lý tưởng cho hầu hết mọi người.

Việc tinh chỉnh toàn bộ điểm kiểm tra chỉ dành cho những sản phẩm rất cụ thể. Phương pháp này tốn kém, sử dụng nhiều dữ liệu và ghi đè lên phong cách chung của mô hình.Trên thực tế, đối với hình đại diện cá nhân, LoRA nhẹ hoặc đường truyền tham chiếu khuôn mặt tốt thường là đủ.

Các nút và khối được đề xuất trong ComfyUI

Biểu đồ điển hình về tính nhất quán kết hợp điểm kiểm tra cơ sở, bộ mã hóa văn bản, bộ lấy mẫu ổn định và các mô-đun nhận dạng/kiểm soát. Đây là những khối hữu ích nhất và cách chúng chơi cùng nhau:

  • Điểm kiểm tra + VAE: Tải SD 1.5 hoặc SDXL (tùy thuộc vào sở thích thẩm mỹ và tài nguyên của bạn). SDXL cung cấp chi tiết, nhưng yêu cầu nhiều VRAM hơn.
  • Mã hóa văn bản CLIP (tích cực/tiêu cực): Xóa lời nhắc, đề cập đến mã thông báo chủ đề (nếu sử dụng LoRA hoặc nhúng) và hướng dẫn về kiểu/cảnh.
  • KSampler: Máy lấy mẫu ổn định Karras DPM++ 2M, 20–35 bước, CFG 4–7 trên SDXL (6–9 trên SD1.5), hạt giống cố định để tái tạo.
  • Bộ điều hợp IP / InstantID: dưỡng da mặt để duy trì các đặc điểm; điều chỉnh sức mạnh (0.6–0.9) theo độ lệch.
  • ControlNet (OpenPose/Depth/Canny): Kiểm soát tư thế, khối lượng và đường viền trong khi danh tính vẫn được neo giữ bởi IP-Adapter/LoRA.
  • Bộ tải LoRA: Tiêm LoRA của đối tượng với trọng số từ 0.6–1.0; nếu nó làm biến dạng phong cách, hãy giảm trọng số hoặc thu nhỏ CFG.
  • Img2Img / Lát gạch: Đối với các biến thể mềm, hãy sử dụng khử nhiễu 0.2–0.45; các giá trị cao hơn sẽ phá hủy bản sắc.

Trên cơ sở này, sự kết hợp ổn định nhất thường là: Chủ đề LoRA + Bộ chuyển đổi IP FaceID + Pose ControlNetLoRA xác định nhân vật, IP-Adapter hiệu chỉnh các đặc điểm tinh tế và ControlNet cho phép bạn tự do thay đổi khung hình và tư thế.

Luồng hướng dẫn từng bước cơ bản (ComfyUI)

Để bắt đầu, bạn có thể xây dựng một luồng tối thiểu và mạnh mẽ. Nó sẽ hữu ích cho bạn dù bạn bắt đầu từ văn bản thuần túy hay thực hiện một số thay đổi nhỏ từ hình ảnh.:

  1. Điểm kiểm tra tải (SDXL hoặc SD1.5) và Tải VAE.
  2. CLIP Mã hóa văn bản (tích cực):Mô tả chủ thể bằng mã thông báo của họ hoặc nếu không có LoRA, hãy mô tả các đặc điểm: «người trưởng thành trẻ tuổi, tóc nâu ngắn, mắt xanh lá cây, khuôn mặt trái xoan» + phong cách mong muốn («chân dung điện ảnh, ánh sáng nền mềm»).
  3. CLIP Mã hóa văn bản (phủ định): bao gồm các hiện vật cần tránh ("mờ, biến dạng, ngón tay thừa, mắt không nhất quán, màu tóc không đúng").
  4. Bộ chuyển đổi IP / ID tức thì: Kết nối ảnh tham chiếu và đặt cường độ ban đầu thành 0.75 (điều chỉnh 0.6–0.9). Nếu bạn chỉ sử dụng một ảnh, hãy cắt ảnh theo khuôn mặt và đảm bảo phơi sáng phù hợp.
  5. Tư thế ControlNet (tùy chọn): xác định tư thế nếu bạn muốn có những biểu cảm/cử chỉ khác nhau mà không làm mất đi bản sắc.
  6. KSampler: DPM++ 2M Karras, 28–32 bước, CFG 5.5–7 (SDXL: có xu hướng giảm CFG một chút). Hạt giống cố định cho các sản phẩm so sánh.
  7. Giải mã VAE và, nếu cần thiết, một người nâng cấp (4x-UltraSharp, ESRGAN hoặc SDXL Refiner để có độ chi tiết cao).

Nếu bạn đã có một LoRA của đối tượng, thêm nó trước mẫu với trọng số 0.8 (bắt đầu ở mức thấp và tăng lên nếu thiếu sự tương đồng). Với LoRA vững chắc, bạn có thể giảm cường độ của Bộ điều hợp IP, để LoRA xử lý danh tính và Bộ điều hợp IP chỉ cần "sửa".

Các thông số tạo nên sự khác biệt

Khi điều chỉnh tính nhất quán, những thay đổi nhỏ trong tham số có vai trò quyết định. Kiểm soát cường độ điều hòa, khử nhiễu và hạt giống mang lại cho bạn sự ổn định thực sự:

  • Khử nhiễu trong img2img: 0.2–0.45 giữ nguyên các đặc điểm và cho phép thay đổi ánh sáng/nền. Từ 0.55, bản sắc sẽ mờ dần.
  • Cân CFGNếu hình ảnh bị "ép buộc" và méo mó, hãy hạ CFG xuống; nếu mô hình bỏ qua lời nhắc của bạn, hãy tăng CFG lên nửa điểm.
  • Bộ lấy mẫu/Các bước: DPM++ 2M Karras hoặc SDE Karras với 24–32 bước thường mang lại kết quả nhất quán mà không có hiện tượng nhiễu.
  • Hạt giống: Đặt hạt giống để so sánh. Đối với biến thể nhẹ, hãy sử dụng "hạt giống biến thể" có cường độ từ 0.1–0.3.
  • Nghị quyết: 768–1024 ở phía dài hơn làm nổi bật các đường nét tinh tế trên khuôn mặt. Ở SDXL, 1024 là mức lý tưởng cho chi tiết.
Nội dung độc quyền - Bấm vào đây  Adobe mang Photoshop, Express và Acrobat đến với ChatGPT.

Nếu màu tóc hoặc màu mắt thay đổi, hãy thêm "màu tóc không đúng, màu sắc thay đổi, màu mắt không đồng nhất" vào phần phủ định và lặp lại. Việc đưa màu sắc vào như một phần của lời nhắc nhở tích cực trong mỗi cảnh quay cũng có ích. để tránh mô hình bị “lãng quên”.

Biểu cảm, bối cảnh và ánh sáng mà không mất đi bản sắc

Đối với các biểu cảm thay đổi (cười, ngạc nhiên, há miệng), hãy dựa vào ControlNet OpenPose hoặc tốt hơn nữa là bộ xử lý trước các đặc điểm trên khuôn mặt khi nó có sẵn. Kiểm soát hình dạng khuôn mặt giúp giảm thiểu biến dạng và ngăn chặn mô hình tạo ra các đặc điểm mới..

Trong chiếu sáng, hãy xây dựng sơ đồ rõ ràng: "hộp mềm từ bên trái", "ánh sáng viền", "giờ vàng". Sử dụng các tham chiếu môi trường (HRI tinh thần, mô tả studio) hướng dẫn bóng mà không ảnh hưởng đến bản sắcNếu tông màu da thay đổi, hãy thêm “độ đồng nhất của tông màu da” hoặc đặt nhiệt độ màu trong lời nhắc.

Đối với nền phức tạp, hãy sử dụng ControlNet Depth hoặc Canny ở cường độ thấp (0.35–0.55) và mô tả môi trường tại dấu nhắc. Bộ điều hợp IP/LoRA phải có trọng lượng lớn hơn ControlNet nền để khuôn mặt không bị nhiễm bẩn bởi các đường nét lạ.

Khi bạn muốn thay đổi diện mạo (quần áo/phụ kiện), hãy nhập chúng bằng văn bản và giảm trọng lượng của LoRA nếu nó luôn "kéo lê" cùng một bộ trang phục. LoRA có thể ghi đè các chi tiết thẩm mỹ; cân bằng trọng số để gửi lời nhắc mới..

Đào tạo hay không đào tạo: hướng dẫn thực tế cho LoRA/nhúng

Nếu tham chiếu khuôn mặt không đủ, hãy cân nhắc sử dụng LoRA của chủ thể. Sử dụng 10–30 bức ảnh với nhiều góc độ, biểu cảm, bối cảnh và ánh sáng khác nhau (nhưng hãy giữ khuôn mặt sạch sẽ và sắc nét).. Cắt cạnh ngắn thành 512–768 px, cân bằng đực/cái nếu cơ sở của bạn là tổng quát và lưu ý tên mã thông báo.

Tham số đào tạo hướng dẫn (SD1.5): hạng 4–8, alpha bằng hạng, tốc độ học từ 1e-4 đến 5e-5, 2k–6k bước với lô nhỏ. Tránh tập luyện quá sức; nếu bạn thấy một "bản sao" của một bức ảnh duy nhất, hãy giảm số bước hoặc tăng thêm sự đa dạng.. Trên SDXL, hãy sử dụng độ phân giải cao hơn và chiếm nhiều VRAM hơn.

Đối với nhúng (đảo ngược văn bản), 3–10 ảnh có thể hoạt động, nhưng bạn sẽ cần nhiều bước hơn để đảm bảo tính ổn định. Các chi tiết nhúng ít ảnh hưởng đến tính thẩm mỹ tổng thể và rất nhẹ., lý tưởng nếu bạn muốn có một mã thông báo có thể tái sử dụng mà không cần quản lý LoRA.

Chất lượng, tỷ lệ và chỉnh sửa

Sau khi tạo xong ảnh gốc, hãy áp dụng bộ điều chỉnh tỷ lệ 2–4x (ESRGAN, UltraSharp 4x) hoặc bộ tinh chỉnh SDXL để làm rõ chi tiết khuôn mặt. Máy tinh chỉnh có thể chỉnh sửa da và mắt mà không gây ra hiện tượng nhiễu, đặc biệt nếu bạn giữ nguyên hạt giống và lời nhắc.

Để sửa mắt/miệng cụ thể, bạn có thể sử dụng ADetailer hoặc các nút phục hồi khuôn mặt. Sửa lỗi cục bộ trong khi vẫn giữ nguyên phần còn lại của tác phẩmTránh sử dụng các bộ lọc mạnh làm "biến dạng" làn da; thay vào đó, hãy tinh chỉnh độ sắc nét và cài đặt độ tương phản vi mô.

Xử lý sự cố thường gặp

Nếu kiểu tóc thay đổi giữa các lần quay, vấn đề thường là do nhiễu quá mức hoặc lời nhắc không rõ ràng. Giảm nhiễu/CFG, củng cố "tóc nâu ngắn" hoặc chỉ định kiểu tóc cụ thể trong mỗi lời nhắc. Nếu bạn sử dụng LoRA, hãy tăng trọng số của nó thêm 0.1.

Nếu màu mắt thay đổi, hãy thêm "mắt xanh lá cây, màu mắt đồng nhất" và viết "màu mắt không đồng nhất, loạn sắc tố" vào phần phủ định. IP-Adapter/InstantID cũng giúp hiển thị chi tiết mống mắt khi tài liệu tham khảo rất rõ ràng.

Nếu phong cách “ăn mòn” bản sắc (ví dụ: phong cách LoRA mạnh), hãy giảm trọng số của nó hoặc tăng trọng số của chủ thể LoRA. Việc cân bằng trọng lượng là điều cần thiết để tránh mất đi sự tương đồng.Một lựa chọn khác là giảm CFG để mô hình không ép buộc kiểu dáng quá nhiều.

Nếu sự thay đổi là tối thiểu, hãy tăng nhẹ độ nhiễu (0.05–0.1) hoặc sử dụng hạt giống thay đổi. Một chút ngẫu nhiên sẽ tạo ra sự đa dạng mà không làm mất đi tính năng.

Cộng đồng và Tiêu chuẩn: Nơi để Học hỏi và Chia sẻ

Cộng đồng Stable Diffusion trên Reddit rất lớn và năng động. Trong /r/StableDiffusion, bạn có thể đăng tác phẩm nghệ thuật, đặt câu hỏi, thảo luận và đóng góp vào các kỹ thuật mở mới.; Đây không phải là diễn đàn chính thức, nhưng tinh thần của diễn đàn là hỗ trợ hệ sinh thái nguồn mở và giúp bạn cải thiện.

Nội dung độc quyền - Bấm vào đây  Kỹ năng tác nhân của Anthropic: tiêu chuẩn mở mới cho các tác nhân AI trong doanh nghiệp.

Subreddit ComfyUI, cũng là subreddit cộng đồng/không chính thức, là nơi tuyệt vời để chia sẻ quy trình làm việc, câu hỏi và mẹo. Vui lòng đăng bài theo chủ đề SFW, không quảng cáo các luồng trả phí, bám sát chủ đề và trên hết là phải tử tế.Việc không quan tâm đến kết quả của người khác sẽ dẫn đến việc bị cấm và bạn không nên làm lộn xộn nguồn cấp dữ liệu của mình bằng quá nhiều bài đăng liên tiếp.

Khám phá các luồng có biểu đồ và tham số được đính kèm là một cách tuyệt vời để tăng tốc quá trình học của bạn. Việc xem các điểm chuẩn với hạt giống cố định, trọng số LoRA và hình ảnh tham chiếu sẽ cho bạn biết cài đặt nào thực sự hiệu quả. trong thực tế.

Từ ảnh đến video có âm thanh: StableAvatar

Nếu bạn muốn tiến xa hơn nữa và có một avatar có thể "nói" bằng âm thanh, hãy thử StableAvatar. Đây là một khuôn khổ để tạo ra các video có nội dung nói chuyện có độ trung thực cao, nhất quán về mặt thời gian, có khả năng dài không giới hạn., bắt đầu từ một bản âm thanh.

Theo tác giả, đối với đoạn clip dài 5 giây ở độ phân giải 480x832 và 25 khung hình/giây, mô hình cơ sở với –GPU_memory_mode=»model_full_load» cần khoảng 18 GB VRAM và hoàn thành trong khoảng 3 phút trên GPU 4090. Điều này mang lại ý tưởng rõ ràng về các tài nguyên cần thiết và hiệu suất có thể có trên phần cứng hiện đại.. Mã và mô hình có sẵn tại: https://github.com/Francis-Rings/StableAvatar

Nhóm nghiên cứu cho biết sẽ có LoRA/điều chỉnh cụ thể cho hệ thống. Điều này mở ra cánh cửa để tùy chỉnh thêm hình đại diện và phong cách khuôn mặt của nhân vật., neo giữ bản sắc như chúng ta làm trong hình ảnh tĩnh, nhưng trong chuỗi video mạch lạc.

Trả lời trực tiếp ba câu hỏi chính

Luật IA của California

1) Tôi có thể tạo avatar nhất quán trực tiếp trong ComfyUI chỉ với một ảnh tham chiếu không? Có, bằng cách sử dụng IP-Adapter (FaceID) hoặc InstantID và một luồng mạnh mẽ với khả năng khử nhiễu được kiểm soát và một hạt giống cố định. Ảnh phải rõ nét và chụp chính diện; với một tham chiếu duy nhất thì có giới hạn về sự thay đổi cực độ, nhưng đối với ảnh chân dung và những thay đổi vừa phải thì nó hoạt động rất tốt.

2) Tôi nên cân nhắc tinh chỉnh hay sử dụng nhúng? Nếu bạn muốn đạt được độ bền tối đa trên nhiều cảnh, một chủ thể LoRA nhẹ là lựa chọn tốt nhất. tỷ lệ nỗ lực/kết quả tốt hơnNhúng (đảo ngược văn bản) nhẹ hơn, nhưng nắm bắt được ít sắc thái hơn. Việc tinh chỉnh hoàn toàn hiếm khi cần thiết, ngoại trừ những sản phẩm rất cụ thể.

3) Cấu hình nút hoặc kỹ thuật nào được khuyến nghị trong ComfyUI? Checkpoint + VAE + CLIP Text Encode (tích cực/tiêu cực) + KSampler (DPM++ 2M Karras, 24–32 bước, CFG 5–7) + IP-Adapter/InstantID + ControlNet (tư thế/độ sâu tùy thuộc vào cảnh). Tải LoRA của đối tượng với trọng số 0.6–1.0 và giảm công suất của Bộ chuyển đổi IP một chút để cả hai có thể bổ sung cho nhau.

4) Sự khuếch tán ổn định có nghĩa là gì và nó dùng để làm gì? Chúng tôi sẽ cho bạn biết thêm thông tin trong bài viết này.

Đừng quên rằng cộng đồng /r/StableDiffusion và ComfyUI là những không gian mở nơi bạn có thể chia sẻ ví dụ, yêu cầu phản hồi và khám phá những thủ thuật mới. Hãy giữ nội dung của bạn SFW, tránh quảng cáo các luồng trả phí và cẩn thận với giọng điệu của bạn với những người mới bắt đầu.; giữa tất cả chúng, mức độ tăng lên rất nhanh.

Với điểm khởi đầu tốt (Bộ điều hợp IP/ID tức thời), hạt giống cố định, lời nhắc rõ ràng và khả năng kiểm soát nhiễu, giờ đây bạn có thể có được ảnh chân dung nhất quán bằng cách thay đổi cài đặt, cử chỉ và ánh sáng. Nếu bạn cũng đào tạo LoRA với 10–30 bức ảnh khác nhau, mức độ tương đồng sẽ tăng lên đáng kể., và với sự luyện tập, việc tinh chỉnh ControlNet và hậu kỳ sẽ mang lại cho bạn kết quả đáng tin cậy ngay cả ở độ phân giải cao. Đối với những ai muốn nâng cao hơn nữa, StableAvatar cho thấy ý tưởng về tính nhất quán trong nhận dạng cũng có thể được áp dụng cho video âm thanh với các nguồn lực phù hợp.