من تصویر ۳ و تصویر ۴ را می‌بینم: گوگل اینگونه با هوش مصنوعی، انقلابی در خلق تصویر و ویدیو ایجاد می‌کند.

اخرین بروزرسانی: 23/05/2025

  • Veo 3 به شما امکان می‌دهد ویدیوهایی با صدای واقعی و دیالوگ از متن ساده تولید کنید.
  • تصویر ۴ تصاویری با جزئیات، متن و کیفیت بی‌سابقه در هوش مصنوعی، تا ۲K و فرمت‌های مختلف ارائه می‌دهد.
  • هر دو مدل از قبل در برنامه‌هایی مانند Gemini، Flow و ابزارهای Google Workspace ادغام شده‌اند.
تصویر ۴ من ۳-۴ را می‌بینم

هوش مصنوعی همچنان به پیشرفت‌های عظیم خود ادامه می‌دهد. اگر شرکتی وجود داشته باشد که همچنان در این زمینه پیشتاز باشد، بدون شک ... گوگل. در آرزوی دیرینه‌اش رویداد سالانه گوگل آی/او ۲۰۲۵، این شرکت با ارائه دو پیشرفت، بار دیگر تولید محتوا را متحول کرده است که نوید تغییر نحوه تولید تصاویر و ویدیوها را می‌دهند: مدل‌های تولیدی من تصویر ۳ و ۴ را می‌بینم. هر دو مجموعه‌ای از نوآوری‌های پیشرفته و غیرمنتظره را ارائه می‌دهند که هم متخصصان و هم کاربران هوش مصنوعی مولد را شگفت‌زده کرده است.

دزد تولید ویدیوهایی با صدای محیط و دیالوگ‌های کامل واقع بین، رفتن از طریق تصاویری با جزئیاتی که تشخیص آنها از یک عکس سنتی تقریباً غیرممکن استاین مدل‌ها، برای ادغام یکپارچه در ابزارهای اداری و پلتفرم‌های خلاقانه، قبل و بعد از آنچه می‌توانیم از هوش مصنوعی اعمال‌شده بر روی تصاویر و صدا انتظار داشته باشیم را مشخص می‌کنند. بیایید ببینیم Veo 3 و Imagen 4 واقعاً چه کاری می‌توانند انجام دهند، بیایید به سراغش برویم.

Veo 3 چیست: عصر جدید ویدیوهای تولید شده توسط هوش مصنوعی با صدای واقع‌گرایانه

Veo 3 این فقط یک به‌روزرسانی دیگر نیست؛ نشان دهنده ورود اولین هوش مصنوعی مولد گوگل است که خلق می‌کند ویدیوهایی با صدای بومی تولید شده خودکار. تاکنون، سایر مدل‌های رقیب مانند Sora از OpenAI در این زمینه عقب مانده‌اند و قادر به اضافه کردن صدای هماهنگ در طول فرآیند تولید نیستند. گوگل یک پیشنهاد واقعاً متفاوت ارائه می‌دهد: ویدیوها با صداهای محیط، دیالوگ‌ها و حتی جلوه‌های صوتی کاملاً مصنوعی اما واقع‌گرایانه، همه بر اساس توضیحات ارائه شده توسط کاربر. برای مثال، می‌توانید درخواست «یک صحنه شهری با ترافیک و صحبت مردم» را بدهید و دقیقاً همان را دریافت خواهید کرد، با صداها و لب‌خوانی معمول شخصیت‌ها.

این Veo 3 را به عنوان هوش مصنوعی قرار می‌دهد که دستورات پیچیده را بهتر درک می‌کند و آنها را به عمل تبدیل می‌کند. سمعی و بصری. می‌توانید جزئیات شخصیت‌های مورد نظر، آنچه باید بگویند و حتی اینکه محیط چگونه باید به نظر برسد تا به یک فضای خاص برسید را شرح دهید. این قابلیت ساخت ویدیوهای 4K، تا دو دقیقه (که از مدل Veo 2 به ارث رسیده است)، اکنون با لایه‌ای از واقع‌گرایی تقویت شده است که داستان‌های ساخته شده توسط هوش مصنوعی را به استانداردهای سینمایی نزدیک‌تر می‌کند.

علاوه بر این، Veo 3 به شما امکان می‌دهد نتیجه را درجا تغییر دهید: اشیاء را اضافه یا حذف کنید، کادربندی را تغییر دهید (از عمودی به افقی و برعکس)، و حتی با استفاده از تکنیک‌های outpainting، میدان دید را گسترش دهید. در ترکیب با کنترل‌های بسیار دقیق‌تر دوربین (چرخش، زوم، ردیابی)، نتیجه سطحی از کنترل بر روایت سمعی و بصری است که پیش از این در هوش مصنوعی مصرفی دیده نشده بود.

برای تسهیل دسترسی، گوگل این مدل را در ... ادغام کرده است. اپلیکیشن جمینی (قبلاً بارد)، و همچنین بر روی پلتفرم جدید جریان (که بعداً در مورد آن صحبت خواهیم کرد) و در ابزارهای حرفه‌ای مانند Vertex AI.

افتخار 400
مقاله مرتبط:
گوگل از ابزار جدید ساخت ویدیو مبتنی بر هوش مصنوعی خود برای گوشی‌های هوشمند آنر رونمایی کرد.

جزئیات پیشرفته: از همگام‌سازی لب تا ویرایش درجا

یکی از چالش‌های بزرگ برای هوش مصنوعی ویدیوی مولد، بدست آوردن دیالوگ‌ها لب‌خوانی طبیعی و قانع‌کننده‌ای داشتند. وئو ۳ با بهره‌گیری از فناوری‌ای که حرکت لب را به طور کامل با صدای تولید شده تطبیق می‌دهد، جهشی رو به جلو برداشته و مکالمات ویدیویی را باورپذیر و روان می‌کند. این امر نه تنها درک واقع‌گرایی را بهبود می‌بخشد، بلکه دریچه‌ای به سوی کاربردهای جدید در آموزش، سمعی و بصری و تبلیغات می‌گشاید.

محتوای اختصاصی - اینجا را کلیک کنید  چگونه از برنامه Google Photos خارج شویم

علاوه بر این، هوش مصنوعی گوگل محدود به نسل اولیه نیست: به کاربر اجازه می‌دهد تا روی صحنه بزرگنمایی کند، جهت را تغییر دهد و عناصر بصری را مطابق با ترجیحات خود تنظیم کند، همه اینها با توضیحات متنی همراه است. به این ترتیب، می‌توانید یک نمای نزدیک را به یک نمای پانوراما تبدیل کنید، از حالت عمودی به افقی تغییر دهید یا اشیاء جدید را بدون نیاز به شروع از ابتدا، در تصویر بگنجانید. همچنین می‌توانید عناصر ناخواسته را حذف کنید، که در تولید سریع محتوای سفارشی بسیار مفید است.

تصویر ۴: انقلاب در تولید تصویر با هوش مصنوعی

تصویر ۴ و من ۳ را از گوگل می‌بینم

به موازات Veo 3، گوگل ارائه کرده است تصویر 4، مدل جدید آن برای تولید تصاویر با استفاده از هوش مصنوعی. نکته برجسته این نسخه، چشمگیر بودن آن است. جهشی در کیفیت، جزئیات و سرعت پاسخ‌دهی. در حالی که هوش مصنوعی قبلاً در جنبه‌هایی مانند بازتولید بافت‌های ظریف (قطرات آب، خز حیوانات، بازتاب‌های پیچیده) ضعیف عمل می‌کرد، Image 4 اکنون تصاویری ایجاد می‌کند که هم در محیط‌های واقع‌گرایانه و هم در ترکیب‌بندی‌های انتزاعی با عکاسی حرفه‌ای رقابت می‌کنند.

مزیت بزرگ دیگر این است که سرعت تولیدتصویر ۴ تا ۱۰ برابر سریع‌تر از مدل قبلی، همان Image 3 که از قبل هم پیشرفته بود. این امر گردش‌های کاری بسیار چابک‌تری را امکان‌پذیر می‌کند و خلاقیت را حتی در پروژه‌هایی که نیاز به فوریت دارند، مانند طراحی گرافیکی فوری یا تولید قطعات برای رسانه‌های اجتماعی، تسهیل می‌کند.

از نظر کیفیت فنی، تصویر ۴ تصاویری با وضوح تا ۲K ایجاد می‌کندکه آنها را برای چاپ با کیفیت بالا و ارائه‌های در مقیاس بزرگ مناسب می‌کند. همچنین از رندرینگ در نسبت‌های ابعادی متنوع، از فرمت‌های مربعی تا پانوراما، پشتیبانی می‌کند و تطبیق‌پذیری کاملی را برای ایجاد همه چیز از کارت پستال گرفته تا پوستر فراهم می‌کند.

یک جزئیات به ویژه مرتبط این است که بهبود قابل توجه در املا و تایپوگرافیهوش مصنوعی اکنون می‌تواند متن را به درستی درون تصاویر جاسازی کند و به شما امکان می‌دهد کارت‌ها، دعوت‌نامه‌ها، پوسترها و حتی کمیک‌ها را با متن خوانا و قالب‌بندی‌شده طراحی کنید. این امر یکی از چالش‌های اصلی مدل‌های مولد قبلی را که اغلب هنگام نوشتن متن جاسازی‌شده خطا ایجاد می‌کردند، از بین می‌برد.

ادغام در اکوسیستم گوگل و در دسترس بودن

دو مدل، من تصویر ۳ و ۴ را می‌بینمآنها به عنوان ابزارهای مجزا کار نمی‌کنند، بلکه در اکوسیستم گوگل ادغام شده‌اند. کاربران می‌توانند مستقیماً از طریق برنامه Gemini و از Flow به آنها دسترسی داشته باشند، اما به نظر می‌رسد که آنها در داخل [سیستم] نیز ادغام شده‌اند. پلتفرم‌هایی مانند Docs، Slides، Vids و سایر ابزارهای Workspace. این به دانشجویان، سازندگان و متخصصان اجازه می‌دهد تا محتوای بصری و سمعی و بصری خود را مستقیماً در پروژه‌های روزمره خود بدون ترک محیط گوگل وارد کنند.

محتوای اختصاصی - اینجا را کلیک کنید  چگونه چندین خط در Google Sheets داشته باشیم

با این حال، در این مرحله اول، دسترسی محدود است. نسخه بتای Veo 3 در Gemini در دسترس است. فقط برای کاربران آمریکایی با اشتراک Google AI Ultra، در حالی که Image 4 قبلاً برای Gemini و سایر ابزارهای Google برای همه مناطق پشتیبانی شده ارائه شده است. آنها همچنین در کاربردهای تخصصی مانند Whisk و ... ظاهر می‌شوند. Vertex AI، طراحی شده برای استفاده تجاری و توسعه محصولات سفارشی.

تمام محتوای تولید شده با Imagen 4 دارای ... واترمارک دیجیتالی به نام SynthID. این علامت، تشخیص اینکه آیا تصویری با هوش مصنوعی و با استفاده از ابزار SynthID Detector ساخته شده است یا خیر را آسان می‌کند و لایه‌ای از شفافیت و اعتماد را در محیط‌هایی که اصالت محتوا بسیار مهم است، اضافه می‌کند.

جریان: ابزار سینمایی که بهترین‌های Veo، Imagen و Gemini را گرد هم می‌آورد

گوگل در کنار مدل‌های تولید مبتنی بر اعلان، Flow را راه‌اندازی کرده است، ابزاری برای ساخت و ویرایش ویدیو که برای بهره‌برداری هرچه بیشتر از Veo 3، Image 4 و Gemini طراحی شده است. Flow بر اساس تجربه قبلی VideoFX (یک آزمایش Google Labs) ساخته شده و آن را بسیار فراتر می‌برد و به کاربران اجازه می‌دهد تا تولید کلیپ‌های ویدیویی، ویرایش صحنه‌ها، کنترل حرکات دوربین و مدیریت دارایی‌ها به روشی ساده و قدرتمند.

از جمله ویژگی های پیشرفته آن، Flow به شما امکان می‌دهد حرکت دوربین و پرسپکتیو را کنترل کنیدصحنه‌های موجود را گسترش دهید، نماهای جدید را با استفاده از سیستم Scenebuilder اضافه کنید و منابع گرافیکی و صوتی را از یک رابط واحد مدیریت کنید. کل فرآیند توسط هوش مصنوعی هدایت می‌شود و منحنی یادگیری را حتی برای متخصصان غیرتدوینگر نیز به حداقل می‌رساند.

علاوه بر این، Flow یک مؤلفه اجتماعی دارد که شما را به اشتراک‌گذاری و کشف محتوای ایجاد شده با هوش مصنوعی دعوت می‌کند.. برای مثال، با Flow TV، کاربران می‌توانند ویدیوهای ساخته شده توسط دیگر سازندگان را بررسی کنند، الهام بگیرند و در یک جامعه پویا که در آن فناوری و خلاقیت در هم تنیده شده‌اند، شرکت کنند.

چگونه به Veo 3 و Imagen 4 دسترسی پیدا کنم؟ فعلاً، فقط در آمریکا

گوگل هوش مصنوعی اولترا

دسترسی به این فناوری‌های پیشرفته در برنامه‌های مرحله‌ای سازماندهی شده است. گوگل هوش مصنوعی اولترا این منحصر به فردترین اشتراک است و برای کسانی طراحی شده که می‌خواهند اولین کسانی باشند که به آخرین اخبار و پیشرفته‌ترین مدل دسترسی پیدا می‌کنند. برج جوزاو همچنین Veo 3، Flow، Whisk، نوت بوک LM، ادغام جمینی در اکوسیستم گوگل، جمینی در کروم، یوتیوب پریمیوم و 30 ترابایت فضای ذخیره سازی ابری.

هزینه، در حال حاضر ، ماهیانه ۲۴۹.۹۹ دلار استاگرچه تخفیف‌های مقدماتی وجود دارد. در حال حاضر فقط کاربران در ایالات متحده می‌توانند برای آن ثبت نام کنند، اما به زودی برنامه ریزی برای گسترش بین المللی انجام خواهد شد.

شرکت‌ها و متخصصان می‌توانند از طریق Veo 3 از مزایای آن بهره‌مند شوند. Vertex AI، که به آنها اجازه می دهد تولید ویدئو و صدا را در گردش‌های کاری شرکتی خود ادغام کنید، توسعه محصول یا کمپین‌های بازاریابی پیشرفته. کاربران خلاق و علاقه‌مند می‌توانند در طرح‌های حرفه‌ای و پایه اکوسیستم هوش مصنوعی گوگل به Imagen 4 و برخی از ویژگی‌های Flow دسترسی داشته باشند.

محتوای اختصاصی - اینجا را کلیک کنید  نحوه متحرک سازی متن هایلایت شده در اسلایدهای گوگل

گوگل همچنین طرحی را طراحی کرده است اکوسیستم مشارکتیجایی که بهبود مدل‌ها به سرعت به تمام ابزارهای بهره‌وری و خلق آن گسترش می‌یابد و تضمین می‌کند که شما همیشه بدون تلاش اضافی به آخرین پیشرفت‌ها دسترسی داشته باشید.

چرا Veo 3 در مقایسه با رقبا یک جهش رو به جلو است؟

تا زمان عرضه Veo 3، اکثر تولیدکننده‌های ویدیوی هوش مصنوعی موجود در بازار (مانند Runway، Luma AI یا Pika Labs) فقط امکان اضافه کردن ... را فراهم می‌کردند. صدای خارجی پس از نسل آنها نمی‌توانستند صداهای بومی هماهنگ را در یک قطعه ایجاد کنند، که برای کسانی که به دنبال نتایج کاملاً خودکار بودند، مشکل ایجاد می‌کرد. وئو ۳ این چالش را حل می‌کند و گوگل را در صدر قرار می‌دهد در رقابت برای هوش مصنوعی سمعی و بصری، حتی جلوتر از پیشنهادهایی مانند Sora از OpenAI، که هنوز نتوانسته صدا را در نسل اولیه ویدیوها ادغام کند.

در مورد کیفیت بصری، جزئیات به‌دست‌آمده توسط Image 4 در بافت‌ها، نورپردازی و دقت بازتولید سبک، از استانداردهای فعلی هوش مصنوعی تصویر فراتر می‌رود.. توانایی تولید متن خوش‌خط و عناصر گرافیکی پیچیده در خود تصاویر، امکان استفاده از آن را از خلق هنری گرفته تا طراحی گرافیک حرفه‌ای، از جمله کاربردهای تفریحی و آموزشی، افزایش می‌دهد.

قابلیت‌های ترکیبی: خلاقیت واقعی بدون محدودیت

تصویر 4

عنصر متمایزکننده رویکرد گوگل در نحوه ترکیب مدل‌های آن با یکدیگر نهفته است. Veo 3 و Imagen 4 به لطف Flow و Gemini می‌توانند با هم کار کنند.، جریان‌های خلاقانه‌ای را فعال می‌کند که در آن می‌توانید با یک تصویر ثابت شروع کنید، آن را به یک صحنه متحرک تبدیل کنید، صدا اضافه کنید و آن را به دقت تنظیم کنید تا یک ویدیوی حرفه‌ای بسازید. این ادغام چند پلتفرمی، گوگل را به شریک ایده‌آلی برای دانشجویان، متخصصان خلاق، آژانس‌های تبلیغاتی یا به طور ساده هر کسی که می‌خواهد به راحتی و به طور موثر قلمروهای بصری جدید را کشف کند، تبدیل می‌کند.

این اکوسیستم همچنین شامل فناوری‌های دیگری مانند Lyria 2 است که برای ... طراحی شده است. تولید موسیقی تطبیقی که به شیوه‌ای هوشمندانه و منسجم، گذارها و احساسات ویدیوها را همراهی می‌کند. این چرخه را کامل می‌کند و امکان تولید قطعات با کیفیت استودیویی را بدون نیاز به استفاده از بانک‌های صدا یا مواد خارجی فراهم می‌کند.

برای توسعه‌دهندگان و کسب‌وکارها، API و ابزارهای مدیریت محتوا، ادغام این راه‌حل‌ها را در محصولات نهایی، خدمات سفارشی، برنامه‌ها و پلتفرم‌های دیجیتال آسان می‌کنند و نوآوری را در بخش‌های متنوعی مانند آموزش، ارتباطات، مراقبت‌های بهداشتی و سرگرمی افزایش می‌دهند.

گوگل به عنوان یک قرار گرفته است معیار در هوش مصنوعی خلاقو امکاناتی را فراهم می‌کند که قبلاً شبیه داستان‌های علمی تخیلی به نظر می‌رسیدند. ترکیبِ کنترل، واقع‌گرایی و سفارشی‌سازی در یک اکوسیستم یکپارچه، استاندارد جدیدی را برای تولید محتوای بصری، صوتی و گرافیکی تعیین می‌کند که تأثیر بالقوه عظیمی در بخش‌های مختلف و نحوه تولید و اشتراک‌گذاری ایده‌های خالقان دارد.

نوت‌بوک LM اندروید-1
مقاله مرتبط:
NotebookLM اکنون برای اندروید در دسترس است: همه چیز درباره برنامه هوش مصنوعی گوگل برای ایجاد، خلاصه‌سازی و گوش دادن به یادداشت‌های شما.