- A „Nano Banana” a Gemini 2.5 Flash Image kódneve, amely a Google új képgeneráló és -szerkesztő modellje.
- Lehetővé teszi a párbeszédes szerkesztést, megőrzi az emberek és tárgyak közötti következetességet, és a képeket természetes nyelvi utasításokkal kombinálja.
- Tartalmazza a SynthID-t láthatatlan vízjelként, valamint szűrőket az érzékeny tartalmak és a közéleti személyiségek számára.
- A Gemini alkalmazásban és a Google AI Studioban a gemini-2.5-flash-image-preview modellel tesztelheted.

Hetekig tartó találgatások után a becenév „Nano banán” megszűnik rejtély lenni: megfelel a következőnek: A Google új képkeresőjét hivatalosan is bemutatták... Gemini 2.5 Flash képA cég egy olyan funkciót aktivál, amely a generálást és a szerkesztést egy párbeszédes megközelítéssel ötvözi, és a kreatív folyamatban lévő súrlódások csökkentésére törekszik.
A modell versenyre kelhet a Midjourney-hoz hasonló generátorokkal és a Photoshophoz hasonló hagyományos szerkesztőkkel, a fejlesztések pedig megerősítették a következőket: következetesség a felvételek között, a funkciók megőrzése, valamint a Google által „villámgyorsnak” nevezett válaszidő. Ezenkívül Integrálva van a Gemini alkalmazásba, és API-kon és a Google AI Studio-ban érhető el..
Mi az a "Nano Banana" és mit nyújt?

A „Nano Banana” a modell belső neve, egy szövegvezérelt szerkesztésre és szigorúan ellenőrzött generálásra összpontosító evolúció. A rendszer megérti a természetes utasításokat, és a változtatásokat ugyanarra a képre alkalmazza anélkül, hogy minden alkalommal a nulláról kellene kezdeni.
Az egyik kulcsa az vizuális következetesség: Amikor fényképet szerkesztesz, a téma arca, póza vagy megvilágítása a verziók között változatlan marad. Ez csökkenti a torzításokat vagy a perspektívaugrásokat amelyek más motorokban összetett forgatókönyvekben továbbra is megjelennek.
El A fotorealizmus előrelépést jelent a hihetőbb textúrákkal és megvilágítással, és a Google konkrét előrelépéseket állított az arcok és a kezek terén, amelyek a képalkotási mesterséges intelligencia két hagyományosan érzékeny területe. A modell azt is jelenti, kiemelkedik a sebességével, ami lerövidíti a tesztelési és fejlesztési ciklusokat.
A közösségi benchmarkingokban, mint például az LM Arénában, a "Nano Banana" a következők között szerepel: legjobbra értékelt a felhasználói élmény szerkesztésében, amelyet a minőség, a kontroll és a válaszadási sebesség egyensúlya vezérel.
Kulcsszerkesztési és -generálási funkciók
- Beszélgetés szerkesztése: párbeszédet folytat a képpel, és iteratív módosításokat kér (pl. az ég intenzitásabbá tétele, egy autó színének megváltoztatása vagy egy tárgy hozzáadása).
- Helyi szelekció és retusálás: Válasszon ki bizonyos területeket az elemek törléséhez, a háttér módosításához, vagy a megvilágítás és a szín beállításához a többi terület befolyásolása nélkül.
- Összetétel és keverés: Több fényképet egyesít egyetlen jelenetbe, és az egyik kép stílusát alkalmazza egy másik képen lévő objektumokra.
- Karakter koherencia: Megőrzi az ugyanazon személy, háziállat vagy tárgy verziói közötti hasonlóságot több szerkesztés során is.
A kreatív rugalmasság mellett a Google egy biztonsági réteget is hozzáadMinden generált vagy szerkesztett kép tartalmazza a SynthID-t, egy láthatatlan beágyazott vízjel, amely ellenáll az átalakításnak, és lehetővé teszi annak ellenőrzését, hogy a tartalmat mesterséges intelligencia hozta-e létre vagy módosította-e.
A rendszer szűrőket tartalmaz a keletkezés vagy manipuláció megakadályozására érzékeny tartalom (erőszak, explicit meztelenség) és blokkolja a híres emberek szerkesztését. Ha a felhasználó valódi fotót tölt fel módosításra, a biztonsági mechanizmusok megpróbálják megakadályozni az olyan kéréseket, amelyek deepfake-ekhez vezethetnek.
A gyakorlatban ez azt jelenti, hogy kevesebb időt pazarolunk a technikai tesztelésre, és nagyobb hangsúlyt fektetünk a kreatív eredményre: A természetes nyelvi parancsok cselekvéssé válnak a helyszínen nagyobb szemantikai pontossággal és a lépték, a mélység és a stílus tiszteletben tartásával.
A Nano Banana használata a Gemini alkalmazásban és az AI Studio-ban

A tapasztalat integrálva van a Gemini felületbe, további szoftver nélkül. Sok esetben Még akkor is kihasználhatod az előnyeit, ha ingyenes verzió, a régióban és a fiókban történő telepítéstől függően.
- A Gemini alkalmazásban vagy weboldalon: Csatlakozás gemini.google.com/app (o a mobilalkalmazás), válaszd ki a rendelkezésre álló sablont, és lépj a „Képek létrehozása” menüpontra az „Eszközök” alatt.
- Létrehozás vagy szerkesztés: Írj be egy utasítást az alapoktól való létrehozáshoz, vagy tölts fel egy fotót szerkesztéshez. Láncolt utasításokat adhatsz hozzá az eredmény finomhangolásához több körben.
- Hasznos utasítások: „fekete-fehér felvétel”, „távolítsa el a tárgyat a háttérből”, „változtassa át a hátteret városképre” vagy „alkalmazza ennek a képnek a stílusát erre a ruhára”.
Ha inkább a fejlesztői környezetből szeretnéd ellenőrizni, hogy a megfelelő modellt használod-e, a Google AI Studio közvetlen folyamatot kínál a kontrollált teszteléshez a következőkkel: gemini-2.5-flash-image-preview.
- Bejelentkezés a Google AI Stúdióba.
- Válaszd a „gemini-2.5-flash-image-preview” modellt a választóban.
- Írjon be szöveges utasításokat és/vagy töltsön fel képeket a szerkesztések valós idejű megtekintéséhez., több műszakos szerkesztés támogatásával.
Bár a viselkedés konzisztenciája és fotorealisztikus jellege javult, érdemes megjegyezni, hogy A képeken belüli szövegábrázolás vagy bizonyos összetett tükröződések még nem tökéletesek.A nyelvvezérelt szerkesztés és vízjelezés mégis érdekes egyensúlyt teremt a kreatív kontroll és a felelősség között.
A párbeszédes szerkesztés, a karakterek egységessége, a sebesség és a SynthID-hez hasonló biztonsági intézkedések kombinációjával, A „Nano Banana” sokoldalú opciót kínál az alkotók, márkák és felhasználók számára, akik maszkok és rétegek nélkül szeretnék módosítani a fotókat vagy komponálni a jeleneteket.: mindezt magától a Gemini-től, egy olyan folyamattal, amely ösztönzi az iterációt, amíg meg nem találják az eredeti ötlethez legjobban illeszkedő verziót.
Technológia-rajongó vagyok, aki "geek" érdeklődését szakmává változtatta. Életemből több mint 10 évet töltöttem a legmodernebb technológiával, és pusztán kíváncsiságból mindenféle programmal bütykölgettem. Most a számítástechnikára és a videojátékokra szakosodtam. Ennek az az oka, hogy több mint 5 éve írok különféle technológiával és videojátékokkal foglalkozó weboldalakra, olyan cikkeket készítve, amelyek mindenki számára érthető nyelven igyekeznek megadni a szükséges információkat.
Ha bármilyen kérdése van, tudásom a Windows operációs rendszerrel, valamint a mobiltelefonokhoz készült Androiddal kapcsolatos mindenre kiterjed. És az én elkötelezettségem az Ön iránti elkötelezettségem, mindig készen állok néhány percet rászánni arra, hogy segítsek megoldani minden kérdését ebben az internetes világban.
