Google Veo 3.1 đã có mặt: âm thanh gốc và các công cụ mới

Âm thanh gốc trong tất cả các công cụ Flow: hội thoại, âm thanh xung quanh và hiệu ứng được đồng bộ hóa
Tuân thủ tốt hơn lời nhắc và kết quả hình ảnh thành video tốt hơn
Các điều khiển chỉnh sửa mới: Thành phần, Khung, Mở rộng và Chèn; Xóa sẽ sớm ra mắt
Có sẵn trong Flow, ứng dụng Gemini, Vertex AI và Gemini API

Mô hình video AI Google Veo 3.1

Google đã cập nhật mô hình tạo video của mình với Veo 3.1, một phiên bản tập trung vào chất lượng nghe nhìn, kiểm soát sáng tạo và độ tin cậy. Công ty tích hợp Những cải tiến quan trọng đối với trình soạn thảo và hiểu biết hướng dẫn của bạn để tăng tốc quá trình tạo ra các tác phẩm có hình ảnh điện ảnh.

La Sự mới lạ dễ thấy nhất là ở âm thanh bản địa, hiện diện trong toàn bộ quy trình làm việc: hội thoại, không khí và hiệu ứng được tạo ra đồng bộ với hình ảnh. Ngoài ra, Flow kết hợp các điều chỉnh giúp tinh chỉnh các cảnh quay, giảm số lần thử nghiệm và duy trì tính nhất quán giữa các lần quay dễ dàng hơn..

Veo 3.1 là gì và có những thay đổi gì so với Veo 3?

Dựa trên Veo 3, mô hình mới ưu tiên tuân thủ lời nhắc và độ chính xác trong đầu ra video và âm thanh. Google lưu ý rằng việc điều chỉnh làm giảm các lần lặp không cần thiết, cung cấp khả năng kiểm soát tốt hơn và kết quả nhất quán với những gì được yêu cầu.

Bản cập nhật được đưa ra sau nhiều tháng sử dụng Flow chuyên sâu của những người sáng tạo, với hàng trăm triệu clip được tạo ra kể từ khi ra mắtViệc học này giúp diễn giải các cảnh phức tạp một cách đáng tin cậy hơn, kết cấu chân thực hơn và tính liên tục giữa các cảnh quay tốt hơn.

Nội dung độc quyền - Bấm vào đây Google Videos: Chỉnh sửa video trực tiếp từ Drive

Công ty cũng tăng cường hỗ trợ cho tỷ lệ khung hình 16:9, cả theo chiều ngang và chiều dọc, để tích hợp tốt hơn vào môi trường đa nền tảng và luồng xuất bản hiện tại.

Tích hợp âm thanh gốc và các định dạng được hỗ trợ

Với Veo 3.1, âm thanh được tạo ra trong một đồng bộ và theo ngữ cảnh trong tất cả các công cụ Flow: Không khí, hiệu ứng và giọng nói phù hợp với từng cảnh quay mà không cần dựa vào hậu kỳ bên ngoài.

Mô hình sản xuất các clip cơ sở khoảng 8 giây ở độ phân giải 1080p và 24 FPS, với khả năng mở rộng mà không mất đi tính nhất quán về mặt thời gian. Cũng hỗ trợ định dạng dọc 9:16, được thiết kế để phân phối di động.

Những khả năng âm thanh này mở rộng đến các chức năng trước đây im lặng, cho phép những gì bạn nghe phát triển cùng với những gì bạn nhìn thấy và các bước tiết kiệm trong hội đồng cuối cùng.

Công cụ Flow: Kiểm soát và Chỉnh sửa

Tôi thấy 3.1

Dòng chảy kết hợp các điều khiển giúp định hướng câu chuyện trực quan. Trong Thành phần cho videohọ có thể tải lên nhiều hình ảnh tham chiếu để thiết lập các ký tự, đối tượng và phong cách, duy trì tính nhất quán giữa các lần chụp.

Nội dung độc quyền - Bấm vào đây Lỗi tường lửa sau KB5060829 trong Windows 11: nguyên nhân, giải pháp và mọi thứ bạn cần biết

Chức năng Khung cho video tạo ra sự chuyển đổi giữa hình ảnh ban đầu và hình ảnh cuối cùng, hữu ích cho việc xác định điểm bắt đầu và kết thúc của một cảnh và giảm thời gian thử nghiệm.

Với Mở rộngĐiều đó là có thể kéo dài clip hơn một phút, liên kết các phân đoạn với tính liên tục về hình ảnh và âm thanh để xây dựng các cảnh quay dài hoặc các câu chuyện chậm hơn.

Trong phần chỉnh sửa, Chèn cho phép bạn thêm các yếu tố vào cảnh quay hiện có trong khi vẫn tôn trọng ánh sáng, bóng tối và phối cảnh. Tùy chọn Loại bỏ dự kiến sẽ sớm ra mắt: mục tiêu của nó là loại bỏ các vật thể không mong muốn và tái tạo đáy biển một cách tự nhiên.

Hiệu suất, giới hạn và chất lượng

Veo 3.1 cho thấy sự tiến bộ trong sự mạch lạc của nhân vật giữa các khung hình và trong việc thể hiện các hiện tượng vật lý cơ bản (trọng lực, va chạm hoặc chất lỏng), cùng với những cải tiến trong hình ảnh thành video, với khả năng bảo toàn các chi tiết tốt hơn.

Giống như AI tạo sinh, có thể có hiện vật điểm, đặc biệt là trong các cảnh chuyển động nhanh hoặc chuyển cảnh phức tạp. Việc đồng bộ hóa môi đã được cải thiện, mặc dù vẫn cần chỉnh sửa trong các sản phẩm đòi hỏi khắt khe.

Google áp dụng hình mờ có thể nhìn thấy và SynthID (nhận dạng khung kỹ thuật số) để truy xuất nguồn gốc nội dung được tạo ra, một biện pháp không thể bị vô hiệu hóa.

Nội dung độc quyền - Bấm vào đây Cách dừng tải ảnh lên từ Google Photos

Tính khả dụng và cách kiểm tra

Veo 3.1 được triển khai trong Chảy, Ứng dụng Gemini, Vertex AI và API dành cho nhà phát triển Gemini. Tính khả dụng có thể thay đổi tùy theo khu vực và có khả năng Một số tính năng nâng cao yêu cầu phải đăng ký.

Đối với các nhóm kỹ thuật và công ty, việc truy cập thông qua Vertex AI và API giúp dễ dàng tích hợp mô hình vào các công cụ nội bộ, đồng thời Người sáng tạo cá nhân có thể thử nghiệm từ ứng dụng Song Tử hoặc trình soạn thảo Flow.

Đối thủ cạnh tranh và ứng dụng thực tế

Ứng dụng Sora 2

Đối diện Sora 2 bởi OpenAIVeo 3.1 nhấn mạnh vào khả năng kiểm soát của người dùng trong quá trình sáng tạo (điểm tín hiệu hình ảnh, chỉnh sửa cảnh và âm thanh tích hợp). Sora 2 nổi bật với sự tập trung vào tính hiện thực, vì vậy sự lựa chọn phụ thuộc vào mục tiêu sáng tạo.

Trong tiếp thị, báo chí và giáo dục, những chức năng này cho phép ý tưởng nguyên mẫu, tạo hình ảnh minh họa giải thích và sản xuất các clip theo chủ đề mà không cần quay phim theo cách truyền thống, giúp đẩy nhanh quá trình phân phối nội dung.

Với bản cập nhật này, Google tinh chỉnh công thức: kiểm soát nhiều hơn, âm thanh tích hợp và các công cụ chỉnh sửa tốt hơn để người sáng tạo có thể đạo diễn câu chuyện ít ma sát hơn, duy trì định dạng và luồng tương thích với các nền tảng chính.