- Veo 3 ช่วยให้คุณสร้างวิดีโอพร้อมเสียงและบทสนทนาที่สมจริงจากข้อความธรรมดาได้
- Image 4 สามารถสร้างภาพที่มีรายละเอียด ข้อความ และคุณภาพที่ไม่เคยมีมาก่อนในรูปแบบ AI สูงสุดถึง 2K และหลายรูปแบบ
- ทั้งสองโมเดลได้รับการรวมเข้ากับแอปต่างๆ เช่น Gemini, Flow และเครื่องมือ Google Workspace แล้ว

ปัญญาประดิษฐ์ยังคงก้าวหน้าอย่างมาก หากมีบริษัทใดที่ยังคงสร้างความก้าวหน้าในสาขานี้ต่อไป ก็คงไม่ต้องสงสัยเลยว่า Google- ในความรอคอยอันยาวนานของเขา งานประจำปี Google I/O 2025บริษัท ได้ปฏิวัติการสร้างเนื้อหาอีกครั้งด้วยการนำเสนอความก้าวหน้าสองประการ ที่สัญญาว่าจะเปลี่ยนแปลงวิธีการผลิตภาพและวิดีโอของเรา: โมเดลเชิงสร้างสรรค์ ฉันเห็น 3 และภาพ 4- ทั้งสองอย่างนี้มาพร้อมกับนวัตกรรมล้ำสมัยและเหนือความคาดหมายมากมาย ซึ่งทำให้ทั้งผู้เชี่ยวชาญและผู้ใช้ AI สร้างสรรค์ต้องตะลึง
จาก การสร้างวิดีโอที่มีเสียงแวดล้อมและบทสนทนาอย่างสมบูรณ์ เหมือนจริง, จะผ่าน ภาพที่มีรายละเอียดแทบแยกแยะจากภาพถ่ายแบบดั้งเดิมไม่ได้เพื่อการบูรณาการอย่างราบรื่นกับเครื่องมือสำนักงานและแพลตฟอร์มสร้างสรรค์ โมเดลเหล่านี้จะแสดงตัวอย่างก่อนและหลังสิ่งที่เราคาดหวังได้จากปัญญาประดิษฐ์ที่นำมาใช้กับภาพและเสียง มาดูกันว่า Veo 3 และ Imagen 4 สามารถทำอะไรได้บ้าง มาดูกันเลย
Veo 3 คืออะไร ยุคใหม่ของวิดีโอที่สร้างด้วย AI พร้อมเสียงที่สมจริง
วีโอ 3 มันไม่ใช่แค่การอัปเดตอีกครั้ง แสดงถึงการมาถึงของ AI เชิงสร้างสรรค์ตัวแรกของ Google ที่สร้าง วิดีโอที่มีเสียงพื้นเมืองที่สร้างโดยอัตโนมัติ- จวบจนขณะนี้ โมเดลคู่แข่งอื่นๆ เช่น Sora ของ OpenAI ยังคงล้าหลังในเรื่องนี้ เนื่องจากไม่สามารถเพิ่มเสียงที่ซิงโครไนซ์ระหว่างกระบวนการสร้างได้เอง Google เสนอข้อเสนอที่แตกต่างอย่างแท้จริง: วิดีโอที่มี เสียงรอบข้าง บทสนทนา และแม้แต่เอฟเฟกต์เสียง สังเคราะห์ทั้งหมดแต่ดูสมจริง โดยอิงตามคำอธิบายที่ผู้ใช้ให้ไว้ ตัวอย่างเช่น คุณสามารถขอให้ “ฉากในเมืองที่มีการจราจรและผู้คนพูดคุยกัน” และคุณจะได้รับสิ่งนั้นโดยตรง พร้อมเสียงและการลิปซิงค์ของตัวละครตามปกติ
ซึ่งทำให้ Veo 3 เป็น AI ที่ เข้าใจคำเตือนที่ซับซ้อนได้ดีขึ้นและแปลเป็นการกระทำ โสตทัศน์ คุณสามารถระบุรายละเอียดได้ว่าตัวละครตัวไหน ควรพูดอะไร และแม้แต่ต้องการให้สภาพแวดล้อมส่งเสียงอย่างไรเพื่อให้ได้บรรยากาศที่ต้องการ ความสามารถในการสร้างวิดีโอ 4K ความยาวสูงสุด 2 นาที (สืบทอดมาจากโมเดล Veo XNUMX) นี้ได้รับการเสริมความสมจริงอีกชั้นหนึ่ง ซึ่งทำให้เรื่องราวที่สร้างขึ้นด้วย AI ใกล้เคียงกับมาตรฐานภาพยนตร์มากขึ้น
นอกจากนี้ Veo 3 ช่วยให้คุณปรับเปลี่ยนผลลัพธ์ได้ทันที: เพิ่มหรือลบวัตถุ เปลี่ยนการจัดกรอบ (จากแนวตั้งเป็นแนวนอนและในทางกลับกัน) และแม้แต่ขยายขอบเขตการมองเห็นโดยใช้เทคนิคการทาสีทับ เมื่อรวมกับการควบคุมกล้องที่แม่นยำยิ่งขึ้นมาก (การหมุน การซูม การติดตาม) ผลลัพธ์ที่ได้คือระดับการควบคุมการเล่าเรื่องผ่านภาพและเสียงที่ไม่เคยเห็นมาก่อนใน AI สำหรับผู้บริโภค
เพื่อให้เข้าถึงได้ง่ายขึ้น Google ได้รวมโมเดลนี้เข้าไว้ด้วยกัน แอปเจมินี่ (เดิมชื่อบาร์ด) รวมถึงบนแพลตฟอร์มใหม่ด้วย ไหล (ซึ่งเราจะพูดถึงในภายหลัง) และในเครื่องมือระดับมืออาชีพเช่น เวอร์เท็กซ์ AI.
รายละเอียดขั้นสูง: จากการลิปซิงโครไนซ์ไปจนถึงการตัดต่อแบบออนเดอะฟลาย
ความท้าทายใหญ่ประการหนึ่งสำหรับ AI ในการสร้างวิดีโอเชิงสร้างสรรค์คือการได้รับ บทสนทนามีการลิปซิงค์ที่เป็นธรรมชาติและน่าเชื่อถือ- Veo 3 ก้าวไปอีกขั้นด้วยการรวมเทคโนโลยีที่จับคู่การเคลื่อนไหวของริมฝีปากกับเสียงที่สร้างขึ้นได้อย่างสมบูรณ์แบบ ทำให้การสนทนาทางวิดีโอเชื่อถือได้และลื่นไหล สิ่งนี้ไม่เพียงแต่ช่วยปรับปรุงการรับรู้ถึงความสมจริงเท่านั้น แต่ยังเปิดประตูสู่การใช้งานใหม่ๆ ในด้านการศึกษา โสตทัศน์ และการโฆษณาอีกด้วย
นอกจากนี้ AI ของ Google ไม่ได้จำกัดอยู่แค่รุ่นแรกเท่านั้น: ช่วยให้ผู้ใช้สามารถซูมเข้าไปในฉาก เปลี่ยนการวางแนว และปรับแต่งองค์ประกอบภาพตามความต้องการ โดยทั้งหมดนี้จะมีคำอธิบายเป็นข้อความด้วย ด้วยวิธีนี้ คุณสามารถเปลี่ยนภาพระยะใกล้เป็นภาพพาโนรามา สลับจากโหมดแนวตั้งเป็นแนวนอน หรือรวมวัตถุใหม่โดยไม่ต้องเริ่มจากศูนย์ คุณสามารถลบองค์ประกอบที่ไม่ต้องการออกได้ ซึ่งมีประโยชน์อย่างยิ่งในการผลิตเนื้อหาที่กำหนดเองอย่างรวดเร็ว
ภาพที่ 4: การปฏิวัติการสร้างภาพด้วย AI
ควบคู่ไปกับ Veo 3 นั้น Google ได้นำเสนอ 4 imagenรูปแบบใหม่ในการสร้างภาพโดยใช้ปัญญาประดิษฐ์ จุดเด่นของเวอร์ชันนี้คือความน่าประทับใจ ก้าวกระโดดในด้านคุณภาพในรายละเอียดและความเร็วในการตอบสนอง- แม้ว่าก่อนหน้านี้ AI จะยังมีข้อบกพร่องในด้านการสร้างพื้นผิวที่ละเอียดอ่อน (หยดน้ำ ขนสัตว์ การสะท้อนที่ซับซ้อน) แต่ขณะนี้ Image 4 สร้างภาพที่สามารถเทียบเคียงกับการถ่ายภาพระดับมืออาชีพได้ทั้งในด้านการตั้งค่าที่สมจริงและองค์ประกอบแบบนามธรรม
ข้อดีที่สำคัญอีกประการหนึ่งคือ ความเร็วในการสร้าง: ภาพที่ 4 ขึ้นอยู่กับ เร็วกว่ารุ่นก่อนหน้าถึง 10 เท่าImage 3 ซึ่งเป็นกระบวนการที่ก้าวหน้าแล้ว ช่วยให้เวิร์กโฟลว์มีความคล่องตัวมากขึ้น ส่งเสริมความคิดสร้างสรรค์แม้ในโครงการที่ต้องการความเร่งด่วน เช่น การออกแบบกราฟิกที่เร่งด่วนหรือการผลิตงานสำหรับโซเชียลมีเดีย
ส่วนคุณภาพทางเทคนิค ภาพที่ 4 สร้างภาพที่มีความละเอียดสูงถึง 2Kทำให้เหมาะกับการพิมพ์ความละเอียดสูงและการนำเสนอขนาดใหญ่ นอกจากนี้ยังรองรับการเรนเดอร์ในอัตราส่วนภาพที่หลากหลาย ตั้งแต่รูปแบบสี่เหลี่ยมจัตุรัสไปจนถึงแบบพาโนรามา ซึ่งให้ความหลากหลายครบครันสำหรับการสร้างทุกอย่างตั้งแต่โปสการ์ดไปจนถึงโปสเตอร์
รายละเอียดที่เกี่ยวข้องโดยเฉพาะอย่างยิ่งคือ การปรับปรุงที่สำคัญในด้านการสะกดคำและการพิมพ์ตอนนี้ AI สามารถฝังข้อความลงในรูปภาพได้อย่างถูกต้อง ช่วยให้คุณสามารถออกแบบการ์ด คำเชิญ โปสเตอร์ และแม้แต่การ์ตูนด้วยข้อความที่อ่านง่ายและจัดรูปแบบได้ดี วิธีนี้ช่วยขจัดความท้าทายหลักประการหนึ่งที่โมเดลกำเนิดก่อนหน้านี้ยังคงพบอยู่ ซึ่งมักจะเป็นข้อผิดพลาดเมื่อเขียนข้อความที่ฝังไว้
การบูรณาการเข้ากับระบบนิเวศและความพร้อมใช้งานของ Google
ทั้งสองรุ่น ฉันเห็น 3 และภาพ 4, พวกเขาไม่ได้ทำงานเป็นเครื่องมือแยกส่วนแต่เป็น ถูกบูรณาการเข้ากับระบบนิเวศของ Google- ผู้ใช้สามารถเข้าถึงได้โดยตรงจากแอป Gemini และจาก Flow แต่ยังปรากฏว่ารวมเข้าไว้ใน แพลตฟอร์มเช่น Docs, Slides, Vids และเครื่องมือ Workspace อื่น ๆ- สิ่งนี้ช่วยให้นักเรียน ผู้สร้างสรรค์ และผู้เชี่ยวชาญนำเนื้อหาภาพและเสียงเข้าสู่โปรเจ็กต์ในชีวิตประจำวันของตนได้โดยตรงโดยไม่ต้องออกจากสภาพแวดล้อมของ Google
อย่างไรก็ตาม ความพร้อมใช้งานมีข้อจำกัดในระยะแรกนี้ Veo 3 มีให้ใช้งานในเวอร์ชันเบต้าใน Gemini แล้ว เฉพาะสำหรับผู้ใช้ในสหรัฐอเมริกาที่สมัครสมาชิก Google AI Ultra เท่านั้น ในขณะที่ Image 4 ได้เปิดตัวไปยัง Gemini และเครื่องมือ Google อื่นๆ แล้วสำหรับพื้นที่ที่รองรับทั้งหมด นอกจากนี้ยังปรากฏในแอปพลิเคชันเฉพาะเช่น Whisk และ เวอร์เท็กซ์ AIออกแบบมาเพื่อการใช้ในธุรกิจและการพัฒนาผลิตภัณฑ์ที่กำหนดเอง
เนื้อหาทั้งหมดที่สร้างด้วย Imagen 4 มี ลายน้ำดิจิตอลที่เรียกว่า SynthID- เครื่องหมายนี้ช่วยให้ระบุได้ง่ายว่ารูปภาพนั้นถูกสร้างด้วย AI หรือไม่ โดยใช้เครื่องมือ SynthID Detector โดยเพิ่มชั้นของความโปร่งใสและความน่าเชื่อถือในสภาพแวดล้อมที่ความถูกต้องของเนื้อหาเป็นสิ่งสำคัญ
Flow: เครื่องมือสร้างภาพยนตร์ที่รวมเอาสิ่งที่ดีที่สุดจาก Veo, Imagen และ Gemini ไว้ด้วยกัน
นอกจากโมเดลการสร้างตามคำสั่งแล้ว Google ยังได้เปิดตัว Flow ซึ่งเป็นเครื่องมือสร้างและแก้ไขวิดีโอที่ออกแบบมาเพื่อให้ใช้งาน Veo 3, Image 4 และ Gemini ได้อย่างเต็มที่ Flow สร้างขึ้นจากประสบการณ์ก่อนหน้าของ VideoFX (การทดลองของ Google Labs) และก้าวไปไกลกว่านั้นมาก โดยให้ผู้ใช้สามารถ สร้างคลิปวิดีโอ ตัดต่อฉาก ควบคุมการเคลื่อนไหวของกล้อง และจัดการสินทรัพย์ ด้วยวิธีการที่เรียบง่ายและทรงพลัง
ในบรรดาคุณสมบัติขั้นสูงของมัน Flow ช่วยให้คุณควบคุมการเคลื่อนไหวของกล้องและมุมมองขยายฉากที่มีอยู่ เพิ่มภาพใหม่โดยใช้ระบบ Scenebuilder และจัดการทรัพยากรภาพและเสียงจากอินเทอร์เฟซเดียว กระบวนการทั้งหมดได้รับการนำทางโดย AI ทำให้การเรียนรู้ลดน้อยลงแม้แต่สำหรับผู้เชี่ยวชาญที่ไม่ได้ทำการแก้ไข
นอกจากนี้ Flow มีองค์ประกอบทางสังคมที่เชิญชวนให้คุณแชร์และค้นพบเนื้อหาที่สร้างด้วย AI- ตัวอย่างเช่น ด้วย Flow TV ผู้ใช้สามารถสำรวจวิดีโอที่สร้างโดยผู้สร้างคนอื่นๆ ค้นหาแรงบันดาลใจ และมีส่วนร่วมในชุมชนที่เต็มไปด้วยพลังที่เทคโนโลยีและความคิดสร้างสรรค์ผสมผสานกัน
ฉันจะเข้าถึง Veo 3 และ Imagen 4 ได้อย่างไร? ตอนนี้เฉพาะในสหรัฐอเมริกาเท่านั้น
การเข้าถึงเทคโนโลยีล้ำสมัยเหล่านี้ได้รับการจัดระเบียบเป็นแผนเป็นระยะๆ Google AI อัลตร้า เป็นการสมัครสมาชิกระดับเอ็กซ์คลูซีฟที่สุด มุ่งเป้าไปที่ผู้ที่ต้องการเป็นคนแรกที่จะเข้าถึงข่าวสารล่าสุดและรุ่นที่ล้ำหน้าที่สุด เมถุนรวมถึง Veo 3, Flow, Whisk, โน๊ตบุ๊คLM, Gemini รวมอยู่ในระบบนิเวศของ Google, Gemini ใน Chrome, YouTube Premium และ ที่เก็บข้อมูลบนคลาวด์ขนาด 30 TB.
ค่าใช้จ่าย, สำหรับตอนนี้, ราคา 249,99 ดอลลาร์ต่อเดือนถึงแม้จะมีส่วนลดแนะนำก็ตาม ในขณะนี้มีเพียงผู้ใช้ในสหรัฐอเมริกาเท่านั้นที่สามารถลงทะเบียนได้ แต่ มีแผนจะขยายกิจการไปยังต่างประเทศเร็วๆ นี้.
บริษัทและผู้เชี่ยวชาญสามารถใช้ประโยชน์จาก Veo 3 ได้ผ่านทาง เวอร์เท็กซ์ AIซึ่งช่วยให้พวกเขา บูรณาการการสร้างวิดีโอและเสียงเข้ากับเวิร์กโฟลว์ขององค์กรของคุณการพัฒนาผลิตภัณฑ์ หรือแคมเปญทางการตลาดขั้นสูง ผู้ใช้ที่มีความคิดสร้างสรรค์และผู้ที่ชื่นชอบสามารถเข้าถึง Imagen 4 และฟีเจอร์บางส่วนของ Flow ในแผน Pro และ Basic ของระบบนิเวศ AI ของ Google ได้
Google ได้ออกแบบเช่นกัน ระบบนิเวศเชิงความร่วมมือซึ่งการปรับปรุงโมเดลจะขยายไปยังเครื่องมือเพิ่มประสิทธิภาพการทำงานและการสร้างสรรค์ทั้งหมดอย่างรวดเร็ว ทำให้คุณสามารถเข้าถึงการพัฒนาล่าสุดได้เสมอโดยไม่ต้องใช้ความพยายามเพิ่มเติม
เหตุใด Veo 3 จึงก้าวล้ำกว่าคู่แข่งอย่างมาก?
จนกระทั่งการมาถึงของ Veo 3 เครื่องสร้างวิดีโอ AI ส่วนใหญ่ในตลาด (เช่น Runway, Luma AI หรือ Pika Labs) อนุญาตให้เพิ่มได้เท่านั้น เสียงภายนอก หลังจากรุ่นแล้ว พวกเขาไม่สามารถสร้างเสียงพื้นเมืองที่ซิงโครไนซ์ภายในชิ้นงานเดียวกันได้ ซึ่งก่อให้เกิดปัญหาแก่ผู้ที่ต้องการผลลัพธ์อัตโนมัติเต็มรูปแบบ Veo 3 ช่วยแก้ปัญหาดังกล่าวได้และ ทำให้ Google เป็นผู้นำ ในการแข่งขันด้าน AI ด้านภาพและเสียง โดยแซงหน้าข้อเสนอเช่น Sora โดย OpenAI ที่ยังไม่สามารถผสานเสียงเข้ากับวิดีโอรุ่นแรกได้
ในด้านคุณภาพของภาพ รายละเอียดที่ได้จาก Image 4 ในด้านพื้นผิว แสง และความแม่นยำในการสร้างสไตล์นั้นเกินมาตรฐาน AI ของภาพในปัจจุบัน- ความสามารถในการสร้างข้อความที่เขียนอย่างดีและองค์ประกอบกราฟิกที่ซับซ้อนภายในรูปภาพเองช่วยเพิ่มความเป็นไปได้ในการใช้งาน ตั้งแต่การสร้างสรรค์ทางศิลปะไปจนถึงการออกแบบกราฟิกระดับมืออาชีพ รวมถึงการใช้งานเพื่อการพักผ่อนหย่อนใจและการศึกษา
ความสามารถผสมผสาน: ความคิดสร้างสรรค์ที่แท้จริงไร้ขีดจำกัด
องค์ประกอบที่ทำให้แนวทางของ Google แตกต่างกันนั้นอยู่ที่การผสมผสานระหว่างโมเดลต่างๆ กัน Veo 3 และ Imagen 4 สามารถทำงานร่วมกันได้ด้วย Flow และ Geminiช่วยให้สามารถสร้างสรรค์ผลงานได้อย่างสร้างสรรค์ โดยคุณสามารถเริ่มต้นด้วยภาพนิ่ง แปลงให้เป็นฉากเคลื่อนไหว เพิ่มเสียง และปรับแต่งให้เหมาะสมเพื่อสร้างวิดีโอแบบมืออาชีพ การบูรณาการข้ามแพลตฟอร์มนี้ทำให้ Google เป็นพันธมิตรที่เหมาะสำหรับนักศึกษา ผู้เชี่ยวชาญด้านความคิดสร้างสรรค์ หน่วยงานโฆษณา หรือใครก็ตามที่ต้องการสำรวจอาณาเขตภาพใหม่ๆ ได้อย่างง่ายดายและมีประสิทธิภาพ
ระบบนิเวศยังรวมถึงเทคโนโลยีอื่น ๆ เช่น Lyria 2 ซึ่งออกแบบมาสำหรับ การสร้างดนตรีแบบปรับตัว ที่เข้าคู่กับการเปลี่ยนแปลงและอารมณ์ของวิดีโอได้อย่างชาญฉลาดและสอดคล้องกัน สิ่งนี้ทำให้วงจรสมบูรณ์แบบ และทำให้สามารถผลิตชิ้นงานคุณภาพระดับสตูดิโอได้ โดยไม่ต้องใช้ระบบเสียงหรือวัสดุภายนอก
สำหรับนักพัฒนาและธุรกิจต่างๆ API และเครื่องมือจัดการเนื้อหาช่วยให้การบูรณาการโซลูชั่นเหล่านี้เข้ากับผลิตภัณฑ์ขั้นปลาย บริการที่ปรับแต่งได้ แอป และแพลตฟอร์มดิจิทัลเป็นเรื่องง่าย ช่วยส่งเสริมนวัตกรรมในภาคส่วนต่างๆ เช่น การศึกษา การสื่อสาร การดูแลสุขภาพ และความบันเทิง
Google อยู่ในตำแหน่ง a เกณฑ์มาตรฐานด้านปัญญาประดิษฐ์เชิงสร้างสรรค์ซึ่งเปิดโอกาสที่แต่ก่อนดูเหมือนเป็นเพียงนิยายวิทยาศาสตร์ การรวมกันของ การควบคุม ความสมจริง และการปรับแต่ง ในระบบนิเวศน์แบบรวมเป็นหนึ่งเดียว มันกำหนดมาตรฐานใหม่ในการสร้างสรรค์เนื้อหาด้านภาพ เสียง และกราฟิก ซึ่งมีผลกระทบมหาศาลในหลายภาคส่วน รวมทั้งวิธีที่ผู้สร้างสรรค์ผลิตและแบ่งปันแนวคิดของพวกเขา
ฉันเป็นผู้ชื่นชอบเทคโนโลยีที่เปลี่ยนความสนใจ "เกินบรรยาย" ของเขาให้กลายเป็นอาชีพ ฉันใช้เวลามากกว่า 10 ปีในชีวิตไปกับเทคโนโลยีล้ำสมัยและปรับแต่งโปรแกรมทุกประเภทด้วยความอยากรู้อยากเห็น ตอนนี้ฉันมีความเชี่ยวชาญในด้านเทคโนโลยีคอมพิวเตอร์และวิดีโอเกม เนื่องจากเป็นเวลากว่า 5 ปีแล้วที่ฉันเขียนให้กับเว็บไซต์ต่างๆ เกี่ยวกับเทคโนโลยีและวิดีโอเกม โดยสร้างบทความที่พยายามให้ข้อมูลที่คุณต้องการในภาษาที่ทุกคนเข้าใจได้
หากคุณมีคำถามใดๆ ความรู้ของฉันมีตั้งแต่ทุกอย่างที่เกี่ยวข้องกับระบบปฏิบัติการ Windows รวมถึง Android สำหรับโทรศัพท์มือถือ และความมุ่งมั่นของฉันคือคุณ ฉันยินดีสละเวลาสักครู่เสมอและช่วยคุณแก้ไขคำถามใดๆ ที่คุณอาจมีในโลกอินเทอร์เน็ตนี้




