میں تصویر 3 اور تصویر 4 دیکھ رہا ہوں: اس طرح گوگل AI کے ساتھ تصویر اور ویڈیو تخلیق میں انقلاب لا رہا ہے۔

آخری تازہ کاری: 23/05/2025

  • Veo 3 آپ کو سادہ متن سے حقیقت پسندانہ آڈیو اور ڈائیلاگ کے ساتھ ویڈیوز بنانے کی اجازت دیتا ہے۔
  • تصویر 4 AI میں بے مثال تفصیل، متن اور معیار کے ساتھ 2K اور متعدد فارمیٹس تک تصاویر حاصل کرتی ہے۔
  • دونوں ماڈلز پہلے سے ہی جیمنی، فلو، اور گوگل ورک اسپیس ٹولز جیسی ایپس میں مربوط ہیں۔
تصویر 4 میں 3-4 دیکھ رہا ہوں۔

مصنوعی ذہانت بڑی پیشرفت جاری رکھے ہوئے ہے۔ اگر کوئی ایسی کمپنی ہے جو اس میدان میں رفتار طے کرتی رہتی ہے، تو یہ بلا شبہ ہے، گوگل. اس کے طویل انتظار میں Google I/O 2025 سالانہ تقریبکمپنی دو پیش رفت پیش کر کے ایک بار پھر مواد کی تخلیق میں انقلاب برپا کر دیا ہے۔ جو کہ ہمارے ذریعے تصاویر اور ویڈیوز بنانے کے طریقے کو تبدیل کرنے کا وعدہ کرتا ہے: تخلیقی ماڈل میں 3 اور تصویر 4 دیکھ رہا ہوں۔. دونوں جدید اور غیر متوقع اختراعات کا ایک سلسلہ لاتے ہیں جس نے جنریٹیو AI کے ماہرین اور استعمال کنندگان دونوں کو بے جان کر دیا ہے۔

ڈیسڈ۔ مکمل طور پر محیط آواز اور مکالموں کے ساتھ ویڈیوز کی نسل حقیقت پسندانہجا رہا ہے تفصیلات کے ساتھ تصاویر کو روایتی تصویر سے الگ کرنا تقریباً ناممکن ہے۔آفس ٹولز اور تخلیقی پلیٹ فارمز میں ہموار انضمام کے لیے، یہ ماڈل پہلے اور بعد میں نشان زد کرتے ہیں جس کی ہم بصری اور آڈیو پر لاگو مصنوعی ذہانت سے توقع کر سکتے ہیں۔ آئیے دیکھتے ہیں کہ Veo 3 اور Imagen 4 واقعی کیا کر سکتے ہیں، آئیے اس تک پہنچتے ہیں۔

Veo 3 کیا ہے: حقیقت پسندانہ آڈیو کے ساتھ AI سے تیار کردہ ویڈیو کا نیا دور

Veo 3 یہ صرف ایک اور اپ ڈیٹ نہیں ہے؛ گوگل کے پہلے تخلیقی AI کی آمد کی نمائندگی کرتا ہے جو تخلیق کرتا ہے۔ خود بخود پیدا ہونے والی مقامی آواز کے ساتھ ویڈیوز. اب تک، اوپن اے آئی کے سورا جیسے دوسرے مسابقتی ماڈل اس سلسلے میں پیچھے رہ گئے ہیں، جو کہ جنریشن کے عمل کے دوران ہی سنکرونائز آڈیو شامل کرنے سے قاصر ہیں۔ گوگل میز پر واقعی ایک امتیازی تجویز رکھتا ہے: ویڈیوز کے ساتھ محیطی آوازیں، مکالمے، اور یہاں تک کہ صوتی اثرات مکمل طور پر مصنوعی لیکن حقیقت پسندانہ، تمام صارف کی فراہم کردہ وضاحتوں پر مبنی۔ مثال کے طور پر، آپ "ٹریفک اور لوگوں کی بات کرنے والے شہری منظر" کے بارے میں پوچھ سکتے ہیں اور آپ کو معمول کی آوازوں اور کرداروں کے ہونٹوں کی مطابقت پذیری کے ساتھ بالکل وہی مل جائے گا۔

یہ Veo 3 کو AI کے طور پر رکھتا ہے۔ پیچیدہ اشارے کو بہتر طور پر سمجھتا ہے اور انہیں عمل میں ترجمہ کرتا ہے۔ بصری آپ تفصیل دے سکتے ہیں کہ آپ کون سے کردار چاہتے ہیں، انہیں کیا کہنا چاہیے، اور یہاں تک کہ ایک مخصوص ماحول کو حاصل کرنے کے لیے ماحول کی آواز کیسے ہونی چاہیے۔ 4K ویڈیوز بنانے کی یہ صلاحیت، دو منٹ تک طویل (Veo 2 ماڈل سے وراثت میں ملی ہے)، اب حقیقت پسندی کی ایک پرت کے ساتھ مضبوط ہوئی ہے جو AI کے تخلیق کردہ فکشن کو سنیما کے معیار کے قریب لاتی ہے۔

اس کے علاوہ، Veo 3 آپ کو فلائی پر نتیجہ میں ترمیم کرنے کی اجازت دیتا ہے۔: اشیاء کو شامل کریں یا ہٹائیں، فریمنگ کو تبدیل کریں (عمودی سے افقی اور اس کے برعکس)، اور یہاں تک کہ آؤٹ پینٹنگ تکنیک کا استعمال کرتے ہوئے منظر کے میدان کو وسیع کریں۔ بہت زیادہ درست کیمرہ کنٹرولز (روٹیشنز، زوم، ٹریکنگ) کے ساتھ مل کر، نتیجہ آڈیو ویژول بیانیہ پر کنٹرول کی سطح ہے جو کہ صارف AI میں پہلے کبھی نہیں دیکھا گیا تھا۔

رسائی کی سہولت کے لیے، گوگل نے اس ماڈل کو اس میں ضم کر دیا ہے۔ جیمنی ایپ (سابقہ ​​بارڈ) کے ساتھ ساتھ نئے پلیٹ فارم پر روانی (جس کے بارے میں ہم بعد میں بات کریں گے) اور پیشہ ورانہ آلات میں جیسے ورٹیکس AI.

غیرت کے نام پر 400
متعلقہ آرٹیکل:
گوگل نے آنر اسمارٹ فونز کے لیے اپنے نئے AI سے چلنے والے ویڈیو بنانے کے ٹول کی نقاب کشائی کی۔

اعلی درجے کی تفصیلات: لپ سنکرونائزنگ سے لے کر آن دی فلائی ایڈیٹنگ تک

جنریٹیو ویڈیو AI کے لیے ایک بڑا چیلنج حاصل کرنا تھا۔ مکالموں میں قدرتی اور قائل ہونٹوں کی مطابقت پذیری تھی۔. Veo 3 ٹیکنالوجی کو شامل کر کے ایک چھلانگ لگاتا ہے جو ہونٹوں کی حرکت کو تیار کردہ آڈیو سے بالکل مماثل رکھتی ہے، جس سے ویڈیو گفتگو کو قابل اعتبار اور رواں ہے۔ یہ نہ صرف حقیقت پسندی کے تصور کو بہتر بناتا ہے بلکہ تعلیم، آڈیو ویژول اور اشتہارات میں نئے استعمال کے دروازے بھی کھولتا ہے۔

خصوصی مواد - یہاں کلک کریں۔  گوگل فوٹو ایپ سے سائن آؤٹ کیسے کریں۔

اس کے علاوہ، گوگل کی AI ابتدائی نسل تک محدود نہیں ہے۔: صارف کو منظر کو زوم کرنے، واقفیت کو تبدیل کرنے، اور بصری عناصر کو ان کی ترجیحات کے مطابق ایڈجسٹ کرنے کی اجازت دیتا ہے، یہ سب کچھ متنی وضاحت کے ساتھ۔ اس طرح، آپ کلوز اپ شاٹ کو پینورامک ویو میں تبدیل کر سکتے ہیں، عمودی سے افقی موڈ میں تبدیل کر سکتے ہیں، یا شروع سے شروع کیے بغیر نئی اشیاء کو شامل کر سکتے ہیں۔ آپ ناپسندیدہ عناصر کو بھی ہٹا سکتے ہیں، جو کہ حسب ضرورت مواد کی تیزی سے تیاری میں انتہائی مفید ہے۔

تصویر 4: AI کے ساتھ امیج جنریشن میں انقلاب

تصویر 4 اور میں گوگل سے 3 دیکھ رہا ہوں۔

Veo 3 کے متوازی طور پر، گوگل نے پیش کیا ہے۔ تصویری 4مصنوعی ذہانت کا استعمال کرتے ہوئے تصاویر بنانے کے لیے اس کا نیا ماڈل۔ اس ورژن کی خاص بات متاثر کن ہے۔ تفصیل اور ردعمل کی رفتار میں معیار میں چھلانگ. اگرچہ AI پہلے باریک ساخت (پانی کی بوندوں، جانوروں کی کھال، پیچیدہ عکاسی) کو دوبارہ تیار کرنے جیسے پہلوؤں میں کم تھا، امیج 4 اب ایسی تصاویر بناتا ہے جو پیشہ ورانہ فوٹو گرافی کا مقابلہ حقیقت پسندانہ ترتیبات اور تجریدی کمپوزیشن دونوں میں کرتی ہے۔

دوسرا بڑا فائدہ یہ ہے۔ نسل کی رفتار: تصویر 4 تک ہے۔ اپنے پیشرو سے 10 گنا تیز, پہلے سے ہی اعلی درجے کی تصویر 3۔ یہ بہت زیادہ چست کام کے بہاؤ کی اجازت دیتا ہے، یہاں تک کہ ایسے منصوبوں میں بھی تخلیقی صلاحیتوں کو سہولت فراہم کرتا ہے جو فوری طور پر مطالبہ کرتے ہیں، جیسے کہ فوری گرافک ڈیزائن یا سوشل میڈیا کے لیے ٹکڑوں کی تیاری۔

تکنیکی معیار کے طور پر، تصویر 4 2K تک ریزولوشن میں تصاویر بناتی ہے۔، انہیں ہائی ڈیفینیشن پرنٹنگ اور بڑے پیمانے پر پیشکشوں کے لیے موزوں بناتا ہے۔ یہ مربع سے لے کر پینورامک فارمیٹس تک مختلف پہلوؤں کے تناسب میں پیش کرنے کی بھی حمایت کرتا ہے، پوسٹ کارڈز سے لے کر پوسٹرز تک ہر چیز کو تخلیق کرنے کے لیے مکمل استعداد فراہم کرتا ہے۔

ایک خاص طور پر متعلقہ تفصیل ہے املا اور نوع ٹائپ میں خاطر خواہ بہتریAI اب تصاویر کے اندر متن کو درست طریقے سے ایمبیڈ کر سکتا ہے، جس سے آپ کارڈز، دعوت نامے، پوسٹرز، اور یہاں تک کہ کامکس کو پڑھنے کے قابل، اچھی شکل والے متن کے ساتھ ڈیزائن کر سکتے ہیں۔ یہ ان اہم چیلنجوں میں سے ایک کو ختم کرتا ہے جو پچھلے جنریٹو ماڈلز نے اب بھی پیش کیا تھا، جو ایمبیڈڈ ٹیکسٹ لکھتے وقت اکثر غلطیاں ہوتی تھیں۔

گوگل ماحولیاتی نظام اور دستیابی میں انضمام

دو ماڈلز، میں 3 اور تصویر 4 دیکھ رہا ہوں۔، وہ الگ تھلگ ٹولز کے طور پر کام نہیں کرتے ہیں، بلکہ گوگل ماحولیاتی نظام میں ضم ہیں۔. صارفین جیمنی ایپ اور فلو سے براہ راست ان تک رسائی حاصل کر سکتے ہیں، لیکن وہ ان میں مربوط بھی دکھائی دیتے ہیں۔ پلیٹ فارمز جیسے Docs، Slides، Vids اور دیگر ورک اسپیس ٹولز. یہ طلباء، تخلیق کاروں، اور پیشہ ور افراد کو گوگل کے ماحول کو چھوڑے بغیر اپنے روزمرہ کے منصوبوں میں براہ راست اپنے بصری اور آڈیو ویژول مواد لانے کی اجازت دیتا ہے۔

خصوصی مواد - یہاں کلک کریں۔  گوگل شیٹس میں متعدد لائنیں کیسے رکھیں

تاہم، اس پہلے مرحلے میں دستیابی محدود ہے۔ Veo 3 جیمنی کے اندر بیٹا میں دستیاب ہے۔ گوگل AI الٹرا سبسکرپشن کے ساتھ صرف امریکی صارفین کے لیے، جبکہ امیج 4 کو پہلے ہی جیمنی اور گوگل کے دیگر ٹولز کے لیے تمام تعاون یافتہ علاقوں کے لیے رول آؤٹ کر دیا گیا ہے۔ وہ مخصوص ایپلی کیشنز جیسے کہ Whisk اور میں بھی ظاہر ہوتے ہیں۔ ورٹیکس AI، کاروباری استعمال اور اپنی مرضی کے مطابق مصنوعات کی ترقی کے لیے ڈیزائن کیا گیا ہے۔

Imagen 4 کے ساتھ تیار کردہ تمام مواد میں a ہوتا ہے۔ ڈیجیٹل واٹر مارک جسے SynthID کہتے ہیں۔. یہ نشان یہ شناخت کرنا آسان بناتا ہے کہ آیا کوئی تصویر AI کے ساتھ SynthID Detector ٹول کا استعمال کرتے ہوئے بنائی گئی تھی، جس سے ماحول میں شفافیت اور اعتماد کی ایک تہہ شامل ہوتی ہے جہاں مواد کی صداقت بہت ضروری ہے۔

فلو: وہ سنیما ٹول جو بہترین Veo، Imagen اور Gemini کو متحد کرتا ہے۔

پرامپٹ پر مبنی جنریشن ماڈلز کے ساتھ، Google نے Flow شروع کیا ہے، ایک ویڈیو تخلیق اور ترمیمی ٹول جو Veo 3، Image 4، اور Gemini سے زیادہ سے زیادہ فائدہ اٹھانے کے لیے ڈیزائن کیا گیا ہے۔ ویڈیو ایف ایکس (گوگل لیبز کا ایک تجربہ) کے پچھلے تجربے پر بہاؤ بنتا ہے اور اسے بہت آگے لے جاتا ہے، جس سے صارفین ویڈیو کلپس تیار کریں، مناظر میں ترمیم کریں، کیمرے کی نقل و حرکت کو کنٹرول کریں اور اثاثوں کا نظم کریں۔ ایک سادہ اور طاقتور طریقے سے۔

اس کی جدید خصوصیات میں، بہاؤ آپ کو کیمرے کی نقل و حرکت اور نقطہ نظر کو کنٹرول کرنے کی اجازت دیتا ہے۔، موجودہ مناظر میں توسیع کریں، سین بلڈر سسٹم کا استعمال کرتے ہوئے نئے شاٹس شامل کریں، اور ایک ہی انٹرفیس سے گرافک اور صوتی وسائل کا نظم کریں۔ پورے عمل کی رہنمائی AI کے ذریعے کی جاتی ہے، جو کہ غیر ترمیم کرنے والے ماہرین کے لیے بھی سیکھنے کے منحنی خطوط کو کم سے کم بناتا ہے۔

اس کے علاوہ، Flow میں ایک سماجی جزو ہے جو آپ کو AI کے ساتھ تخلیق کردہ مواد کو شیئر کرنے اور دریافت کرنے کی دعوت دیتا ہے۔. مثال کے طور پر، Flow TV کے ساتھ، صارفین دوسرے تخلیق کاروں کی تخلیق کردہ ویڈیوز کو دریافت کر سکتے ہیں، تحریک حاصل کر سکتے ہیں، اور ایک متحرک کمیونٹی میں شرکت کر سکتے ہیں جہاں ٹیکنالوجی اور تخلیقی صلاحیتیں آپس میں جڑی ہوئی ہیں۔

میں Veo 3 اور Imagen 4 تک کیسے رسائی حاصل کروں؟ ابھی کے لیے، صرف امریکہ میں

گوگل اے آئی الٹرا

ان جدید ترین ٹیکنالوجیز تک رسائی کو مرحلہ وار منصوبوں میں ترتیب دیا گیا ہے۔ گوگل اے آئی الٹرا یہ سب سے خصوصی سبسکرپشن ہے، جس کا مقصد ان لوگوں کے لیے ہے جو تازہ ترین خبروں تک رسائی حاصل کرنے والے پہلے فرد بننا چاہتے ہیں اور جدید ترین ماڈل جیمنی، نیز Veo 3، Flow، Whisk، نوٹ بک ایل ایم, Gemini گوگل کے ایکو سسٹم میں ضم، Gemini in Chrome، YouTube Premium اور 30 TB کلاؤڈ اسٹوریج.

لاگت، اب تک، یہ ایک مہینہ $249,99 ہے۔اگرچہ تعارفی رعایتیں موجود ہیں۔ اس وقت صرف امریکہ میں صارفین ہی اس کے لیے سائن اپ کر سکتے ہیں، لیکن جلد ہی بین الاقوامی توسیع کا منصوبہ ہے۔.

کمپنیاں اور پیشہ ور افراد Veo 3 کے ذریعے فائدہ اٹھا سکتے ہیں۔ ورٹیکس AI، جو انہیں اجازت دیتا ہے۔ ویڈیو اور آڈیو جنریشن کو اپنے کارپوریٹ ورک فلو میں ضم کریں۔، مصنوعات کی ترقی یا جدید مارکیٹنگ مہمات۔ تخلیقی اور پرجوش صارفین گوگل کے AI ماحولیاتی نظام کے پرو اور بنیادی منصوبوں میں Imagen 4 اور Flow کی کچھ خصوصیات تک رسائی حاصل کر سکتے ہیں۔

خصوصی مواد - یہاں کلک کریں۔  گوگل سلائیڈز میں ہائی لائٹ ٹیکسٹ کو اینیمیٹ کرنے کا طریقہ

گوگل نے بھی ڈیزائن کیا ہے۔ باہمی تعاون پر مبنی ماحولیاتی نظام، جہاں ماڈلز میں بہتری تیزی سے اس کی تمام پیداواری صلاحیتوں اور تخلیقی ٹولز تک پھیل جاتی ہے، اس بات کو یقینی بناتے ہوئے کہ آپ کو بغیر کسی اضافی کوشش کے ہمیشہ تازہ ترین پیشرفتوں تک رسائی حاصل ہو۔

Veo 3 مقابلے کے مقابلے میں ایک چھلانگ کیوں ہے؟

Veo 3 کی آمد تک، مارکیٹ میں زیادہ تر AI ویڈیو جنریٹرز (جیسے رن وے، Luma AI یا Pika Labs) نے صرف شامل کرنے کی اجازت دی بیرونی آڈیو نسل کے بعد. وہ ایک ہی ٹکڑے کے اندر مطابقت پذیر مقامی آوازیں نہیں بنا سکتے تھے، جس نے مکمل طور پر خودکار نتائج تلاش کرنے والوں کے لیے ایک مسئلہ پیدا کیا۔ Veo 3 اس چیلنج کو حل کرتا ہے اور گوگل کو برتری میں رکھتا ہے۔ آڈیو ویژول AI کی دوڑ میں، یہاں تک کہ اوپن اے آئی کی طرف سے سورا جیسی تجاویز سے بھی آگے، جو ابھی تک ویڈیوز کی ابتدائی نسل میں آڈیو کو ضم کرنے میں کامیاب نہیں ہوئی ہے۔

جہاں تک بصری معیار کا تعلق ہے۔ ساخت، روشنی، اور طرز تولید کی درستگی میں امیج 4 کے ذریعے حاصل کردہ تفصیلات موجودہ تصویر کے AI معیارات سے زیادہ ہیں۔. تصاویر کے اندر اچھی طرح سے تحریر شدہ متن اور پیچیدہ گرافک عناصر پیدا کرنے کی صلاحیت فنکارانہ تخلیق سے لے کر پیشہ ورانہ گرافک ڈیزائن تک، بشمول تفریحی اور تعلیمی ایپلی کیشنز کے استعمال کے امکانات کو بڑھاتی ہے۔

مشترکہ صلاحیتیں: بغیر کسی حد کے حقیقی تخلیقی صلاحیت

تصویری 4

گوگل کے نقطہ نظر کا امتیازی عنصر اس بات میں مضمر ہے کہ اس کے ماڈل ایک دوسرے کے ساتھ کیسے ملتے ہیں۔ Veo 3 اور Imagen 4 Flow اور Gemini کی بدولت ایک ساتھ کام کر سکتے ہیں۔, تخلیقی بہاؤ کو فعال کرنا جہاں آپ ایک مستحکم تصویر کے ساتھ شروع کر سکتے ہیں، اسے ایک متحرک منظر میں تبدیل کر سکتے ہیں، آڈیو شامل کر سکتے ہیں، اور پیشہ ورانہ ویڈیو بنانے کے لیے اسے ٹھیک ٹیون کر سکتے ہیں۔ یہ کراس پلیٹ فارم انضمام Google کو طلباء، تخلیقی پیشہ ور افراد، اشتہاری ایجنسیوں، یا کسی ایسے شخص کے لیے مثالی پارٹنر بناتا ہے جو آسانی سے اور مؤثر طریقے سے نئے بصری علاقوں کو تلاش کرنا چاہتے ہیں۔

ماحولیاتی نظام میں لیریا 2 جیسی دیگر ٹیکنالوجیز بھی شامل ہیں، جو کہ کے لیے ڈیزائن کی گئی ہیں۔ انکولی موسیقی کی نسل جو ایک ذہین اور مربوط انداز میں ویڈیوز کی منتقلی اور جذبات کے ساتھ ہے۔ یہ دائرہ مکمل کرتا ہے اور ساؤنڈ بینکس یا بیرونی مواد کا سہارا لینے کی ضرورت کے بغیر اسٹوڈیو کے معیار کے ٹکڑوں کی تیاری کی اجازت دیتا ہے۔

ڈویلپرز اور کاروباروں کے لیے، API اور مواد کے انتظام کے ٹولز ان حلوں کو حتمی مصنوعات، موزوں خدمات، ایپس اور ڈیجیٹل پلیٹ فارمز میں ضم کرنا آسان بناتے ہیں، جس سے تعلیم، مواصلات، صحت کی دیکھ بھال اور تفریح ​​جیسے متنوع شعبوں میں جدت طرازی کو فروغ ملتا ہے۔

گوگل ایک کے طور پر پوزیشن میں ہے تخلیقی مصنوعی ذہانت میں معیار، ایسے امکانات کو کھولنا جو پہلے سائنس فکشن کی طرح لگتا تھا۔ کا مجموعہ کنٹرول، حقیقت پسندی اور حسب ضرورت ایک متحد ماحولیاتی نظام میں، یہ بصری، آڈیو، اور گرافک مواد تیار کرنے کے لیے ایک نیا معیار مرتب کرتا ہے، جس کے مختلف شعبوں میں بہت زیادہ ممکنہ اثرات اور تخلیق کاروں کے اپنے خیالات پیدا کرنے اور شیئر کرنے کے طریقے کے ساتھ۔

NotebookLM Android-1
متعلقہ آرٹیکل:
نوٹ بک ایل ایم اب اینڈرائیڈ پر دستیاب ہے: آپ کے نوٹس بنانے، خلاصہ کرنے اور سننے کے لیے گوگل کی AI ایپ کے بارے میں سب کچھ۔