- Gemma 3n és un model de IA multimodal, obert i eficient, dissenyat per funcionar localment fins i tot en mòbils amb només 2 GB de RAM.
- Permet processament de text, imatges, àudio i vídeo sense necessitat de connexió a Internet, destacant en privadesa i baix consum de recursos.
- Inclou innovacions com MatFormer i Per Layer Embeddings que milloren l'eficiència i adaptabilitat del model segons el dispositiu.
- Està disponible per a desenvolupadors en plataformes com Google AI Studio, Hugging Face i Kaggle, i supera altres IA mòbils en capacitats multimodals i execució offline.
Google ha fet un pas rellevant en el món de la intel·ligència artificial amb el llançament de Gemma 3n, un model de IA de codi obert especialment orientat a executar-se en dispositius amb recursos limitats. Aquesta proposta, que ja es pot descarregar i instal·lar-se en telèfons mòbils, tauletes i portàtils, suposa l'arribada de la IA multimodal al palmell de la mà, fins i tot en equips amb només 2 GB de RAM i sense connexió a internet. La seva aparició es produeix després de la seva presentació durant el últim Google I/O, i ha captat latenció de desenvolupadors i usuaris que busquen solucions de IA locals, privades i eficients.
Aquest nou model parteix de l'objectiu de democratitzar l'accés a eines d'intel·ligència artificial avançades sense dependre de servidors al núvol. Així, Google diferencia clarament Gemma 3n d'alternatives com Gemini, que mantenen un enfocament tancat i més centrat en el consum massiu. En el cas de Gemma, l'aposta és pel desenvolupament obert i l'ús investigador i personalitzat de la IA, permetent-ne la descàrrega, modificació i integració en multitud d'aplicacions.
Capacitats multimodals i eficiència excel·lent
Gemma 3n destaca especialment per ser multimodal, És a dir, pot interpretar i generar text, imatges, àudio i vídeo directament des del dispositiu, sense recórrer al núvol. Entre les seves capacitats principals hi ha el reconeixement de veu, transcripció, traducció i anàlisi visual en temps real, adaptant-se bé a tasques educatives, assistents personals o sistemes de traducció.
L'arquitectura sobre la qual es construeix, anomenada MatFormer, permet que el model se subdivideixi en versions més petites integrades dins una principal, com si fos una matryoshka. Gràcies a aquesta estructura, Gemma 3n pot gestionar millor els recursos i adaptar-se a les limitacions del maquinari on s'executi. A més, incorpora la tècnica Per Layer Embeddings (PLE), que redueix lús de memòria sense perdre rendiment, permetent així que funcioni fins i tot en dispositius amb especificacions modestes.
Gemma 3n s'ofereix en dues variants principals: E2B y E4B, amb 2.000 i 4.000 milions de paràmetres efectius respectivament. Tot i això, gràcies al seu disseny, tots dos models poden executar-se amb requisits de memòria equivalents a models molt més petits, el que obre la porta a la IA avançada en dispositius tradicionals de gamma baixa i mitjana.
Per al processament d'imatges i vídeo, Gemma 3n utilitza el codificador MobileNet-V5, optimitzat per funcionar amb fluïdesa fins i tot en mòbils poc potents, permetent treballar amb vídeo a 60 fps en models recents. A l'apartat d'àudio, permet des de la transcripció de veu fins a la traducció instantània, tot de manera local.
Privadesa, rendiment i disponibilitat

Funcionar completament offline és una de les grans cartes de Gemma 3n, doncs garanteix que totes les dades processades per la IA romanen al mateix terminal, reforçant així la privadesa de l'usuari davant d'altres solucions que depenen del núvol. Aquesta característica es tradueix també en més eficiència energètica i menys consum de dades, factors clau en mòbils i entorns amb connexions limitades.
En termes de rendiment, Gemma 3n suporta 140 idiomes per a processament de text i 35 idiomes en la modalitat multimodal. Ha demostrat un rendiment destacat en proves de referència com LMArena, on el model E4B supera els 1.300 punts, convertint-se en el primer amb menys de 10.000 milions de paràmetres a assolir aquest nivell.
Gemma 3n ja està disponible en múltiples plataformes per a desenvolupadors, com Google AI Studio, Hugging Face, Kaggle ia través d'eines com Google AI Edge o Ollama. El disseny obert i la flexibilitat d'integració faciliten la creació de noves aplicacions adaptades a necessitats concretes, des de sistemes educatius fins a assistents intel·ligents i eines de traducció offline.
Comparativa amb altres alternatives i avantatges pràctics
L'arribada de Gemma 3n es produeix en un context d'evolució de la IA mòbil i edge, on destaquen altres propostes com ara Apple Neural Engine, Samsung Gauss o els models de Meta i Microsoft. Tot i això, mentre que moltes d'aquestes solucions requereixen connexió a servidors, ofereixen capacitats limitades al text o imatge, o no estan obertes al desenvolupament extern, Gemma 3n aposta per la multimodalitat real, l'absència de dependència de la xarxa i l'obertura a la comunitat.
Els avantatges més notables per als usuaris són la possibilitat de executar IA avançada sense perdre el control sobre la privadesa, gaudir de resposta immediata i reduir costos associats a lús de dades mòbils. Per als fabricants i desenvolupadors, Gemma 3n representa una oportunitat de portar aplicacions intel·ligents a un espectre de dispositius molt més gran, sense dependre de l'últim maquinari o d'ampliacions costoses de memòria.
L'impuls de Gemma 3n ha motivat fins i tot que alguns fabricants ja estiguin augmentant la capacitat de RAM als seus nous dispositius, preveient una futura integració massiva d'IA local. Així, Google es col·loca en una posició rellevant a la carrera per aconseguir intel·ligència artificial potent, eficient, oberta i veritablement accessible.
Sóc un apassionat de la tecnologia que ha convertit els seus interessos frikis en professió. Porto més de 10 anys de la meva vida utilitzant tecnologia d'avantguarda i traslladant tota mena de programes per pura curiositat. Ara he especialitzat en tecnologia d'ordinador i videojocs. Això és perquè des de fa més de 5 anys que treballo redactant per a diverses webs en matèria de tecnologia i videojocs, creant articles que busquen donar-te la informació que necessites amb un llenguatge comprensible per tothom.
Si tens qualsevol pregunta, els meus coneixements van des de tot allò relacionat amb el sistema operatiu Windows així com Android per a mòbils. I és que el meu compromís és amb tu, sempre estic disposat a dedicar-te uns minuts i ajudar-te a resoldre qualsevol dubte que tinguis a aquest món d'internet.
