Gemma 3n: sztuczna inteligencja Google’a, która działa bez Internetu

Gemma 3n to otwarty, wydajny, multimodalny model sztucznej inteligencji zaprojektowany do lokalnego działania nawet na urządzeniach mobilnych, które mają tylko 2 GB pamięci RAM.
Umożliwia przetwarzanie tekstu, obrazów, plików audio i wideo bez konieczności połączenia z Internetem, zapewniając prywatność i niskie zużycie zasobów.
Zawiera innowacje takie jak MatFormer i Per Layer Embeddings, które zwiększają wydajność i możliwość adaptacji modelu w zależności od urządzenia.
Jest dostępna dla deweloperów na platformach takich jak Google AI Studio, Hugging Face i Kaggle, a pod względem możliwości multimodalnych i działania w trybie offline przewyższa inne mobilne rozwiązania sztucznej inteligencji.

Google poczyniło znaczący krok w świecie sztucznej inteligencji, wprowadzając Wypuszczenie Gemmy 3n, model AI typu open-source zaprojektowany specjalnie do działania na urządzeniach o ograniczonych zasobach. Ta propozycja, która Aplikację można już pobrać i zainstalować na telefonach komórkowych, tabletach i laptopach., to oznacza Pojawienie się multimodalnej sztucznej inteligencji na wyciągnięcie ręki, nawet na urządzeniach z zaledwie 2 GB pamięci RAM i bez połączenia z Internetem. Jego pojawienie się następuje po jego prezentacji podczas ostatnie Google I/Oi przykuło uwagę programistów i użytkowników poszukujących lokalnych, prywatnych i wydajnych rozwiązań w zakresie sztucznej inteligencji.

Ten nowy model opiera się na celu Upowszechnij dostęp do zaawansowanych narzędzi sztucznej inteligencji bez polegania na serwerach w chmurzeW ten sposób Google wyraźnie odróżnia Gemma 3n od alternatyw takich jak Gemini, które utrzymują zamknięte podejście i są bardziej skoncentrowane na masowej konsumpcji. W przypadku Gemma nacisk położony jest na otwarty rozwój oraz badania i spersonalizowane wykorzystanie AI, co pozwala na jej pobieranie, modyfikowanie i integrowanie z wieloma aplikacjami.

Ekskluzywna zawartość — kliknij tutaj Jak obrócić obraz w Prezentacjach Google

Możliwości multimodalne i wyjątkowa wydajność

Gemma 3n wyróżnia się szczególnie tym, że jest multimodalna, to znaczy, potrafi interpretować i generować tekst, obrazy, dźwięk i wideo bezpośrednio z urządzenia, bez uciekania się do chmury. Jego podstawowe możliwości obejmują rozpoznawanie mowy, transkrypcję, tłumaczenie i analizę wizualną w czasie rzeczywistym, dzięki czemu doskonale nadaje się do zadań edukacyjnych, asystentów osobistych lub systemów tłumaczeniowych.

Architektura, na której jest zbudowana, nazywana MatFormer, pozwala na podzielenie modelu na mniejsze wersje zintegrowane w ramach głównej, jak matrioszka. Dzięki tej strukturze, Gemma 3n potrafi lepiej zarządzać zasobami i dostosowywać się do ograniczeń sprzętu, na którym działa.. Ponadto zawiera technika Osadzenia na warstwie (PLE), To zmniejsza zużycie pamięci bez utraty wydajności, co pozwala na jego uruchomienie nawet na urządzeniach o skromnej specyfikacji.

Gemma 3n oferowana jest w dwóch głównych wariantach: E2B y E4B, odpowiednio z 2.000 miliardami i 4.000 miliardami efektywnych parametrów. Jednak dzięki swojej konstrukcji oba modele mogą działać z wymaganiami pamięci równoważnymi znacznie mniejszym modelom, co otwiera drzwi do zaawansowanej sztucznej inteligencji na tradycyjnych urządzeniach z niskiej i średniej półki.

Ekskluzywna zawartość — kliknij tutaj Kamera perowskitowa: nowy punkt odniesienia w dziedzinie czujników SPECT i obrazu

Dla przetwarzanie obrazu i wideoGemma 3n używa enkodera MobileNet-V5, zoptymalizowany do płynnej pracy nawet na urządzeniach mobilnych o niskim poborze mocy, umożliwiający pracę z wideo przy 60 fps na najnowszych modelach. W sekcji audio umożliwia transkrypcję głosu i natychmiastowe tłumaczenie, wszystko lokalnie.

Prywatność, wydajność i dostępność

Gemma 3n Lokalna wydajność AI

Jedną z największych zalet Gemmy 3n jest możliwość pracy w trybie całkowicie offline, Zapewnia, że wszystkie dane przetwarzane przez AI pozostają na samym urządzeniu, wzmacniając w ten sposób prywatność użytkownika w porównaniu z innymi rozwiązaniami opartymi na chmurze. Ta funkcja przekłada się również na większą efektywność energetyczną i niższe zużycie danych, co jest kluczowym czynnikiem w urządzeniach mobilnych i środowiskach z ograniczoną liczbą połączeń.

Jeśli chodzi o wydajność, Gemma 3n obsługuje 140 języków podczas przetwarzania tekstu i 35 języków w trybie multimodalnym.Wykazał się on znakomitą wydajnością w testach porównawczych, takich jak LMArena, w których model E4B przekroczył 1.300 punktów, stając się pierwszym smartfonem, który osiągnął ten poziom z liczbą parametrów mniejszą niż 10.000 miliardów.

Gemma 3n już tu jest dostępne na wielu platformach dla programistów, takich jak Google AI Studio, Hugging Face, Kaggle i za pośrednictwem narzędzi takich jak Google AI Edge lub Ollama. Ich otwarty projekt i elastyczność integracji ułatwiają tworzenie nowych aplikacji dostosowanych do konkretnych potrzeb, od systemów edukacyjnych po inteligentnych asystentów i narzędzia do tłumaczeń offline.

Ekskluzywna zawartość — kliknij tutaj AMD prezentuje akceleratory Instinct MI350 i swój plan rozwoju wysokowydajnej sztucznej inteligencji

Porównanie z innymi alternatywami i praktyczne zalety

Pojawienie się Gemma 3n wpisuje się w kontekst ewolucji mobilnej i brzegowej sztucznej inteligencji, Inne propozycje obejmują Apple Neural Engine, Samsung Gauss oraz modele od Meta i Microsoft. Jednak podczas gdy wiele z tych rozwiązań wymaga połączenia z serwerem, oferuje ograniczone możliwości tekstowe lub graficzne lub nie jest otwartych na rozwój zewnętrzny, Gemma 3n Dąży do prawdziwej multimodalności, braku zależności od sieci i otwartości na społeczność..

Najbardziej zauważalną zaletą dla użytkowników jest możliwość uruchamiaj zaawansowaną sztuczną inteligencję bez utraty kontroli nad prywatnością, ciesz się natychmiastową reakcją i zmniejsz koszty związane z wykorzystaniem danych mobilnych. Dla producentów i deweloperów, Gemma 3n Daje to możliwość wprowadzenia inteligentnych aplikacji na znacznie szerszą gamę urządzeń, bez konieczności stosowania najnowszego sprzętu lub kosztownych modernizacji pamięci..

Pęd Gemmy 3n zmotywował nawet niektórych producentów do zwiększenia pojemności pamięci RAM w swoich nowych urządzeniach, przewidując przyszłą masową integrację lokalnej AI. W ten sposób Google stawia się na istotnej pozycji w wyścigu o osiągnięcie Potężna, wydajna, otwarta i naprawdę dostępna sztuczna inteligencja.

Alberto Navarro

Jestem entuzjastą technologii, który swoje „geekowskie” zainteresowania przekształcił w zawód. Spędziłem ponad 10 lat mojego życia, korzystając z najnowocześniejszych technologii i majsterkując przy wszelkiego rodzaju programach z czystej ciekawości. Teraz specjalizuję się w technologii komputerowej i grach wideo. Dzieje się tak dlatego, że od ponad 5 lat piszę dla różnych serwisów poświęconych technologii i grom wideo, tworząc artykuły, których celem jest dostarczenie potrzebnych informacji w języku zrozumiałym dla każdego.

Jeśli masz jakieś pytania, moja wiedza obejmuje wszystko, co jest związane z systemem operacyjnym Windows, a także Androidem dla telefonów komórkowych. Moje zaangażowanie jest wobec Ciebie. Zawsze jestem gotowy poświęcić kilka minut i pomóc Ci rozwiązać wszelkie pytania, jakie możesz mieć w tym internetowym świecie.