Google lancia Gemma 4: modelli open-weight con licenza Apache 2.0

Google DeepMind rilascia Gemma 4, famiglia di quattro modelli open-weight che operano su singola GPU H100, con licenza Apache 2.0 e supporto multimodale per di…

Contenuto

Google lancia Gemma 4: modelli open-weight con licenza Apache 2.0

Scopri anche

Google lancia Gemma 4: modelli open-weight con licenza Apache 2.0

Google DeepMind presenta Gemma 4: quattro modelli open-weight per inferenza locale

In questo articolo:

Google DeepMind ha rilasciato Gemma 4, una famiglia di quattro modelli open-weight progettati per l'esecuzione su hardware locale. I modelli spaziano da 2 a 31 miliardi di parametri e sono ottimizzati per dispositivi che vanno dagli smartphone fino a workstation con GPU professionali. Il lancio rappresenta un cambio di strategia nella gestione delle licenze: Google ha abbandonato la licenza personalizzata delle versioni precedenti adottando la Apache 2.0, che rimuove le restrizioni sull'uso commerciale.

La famiglia Gemma 4 si compone di quattro varianti: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture-of-Experts (MoE) e 31B Dense. I primi due modelli sono destinati a dispositivi mobili e IoT, mentre le varianti più grandi sono ottimizzate per server e workstation. Secondo Google, i modelli "superano competitor con dimensioni 20 volte superiori" nelle valutazioni comparative.

Architettura e specifiche tecniche dei quattro modelli

⬆ Torna su

Il modello 31B Dense rappresenta il prodotto di punta della famiglia. I pesi non quantizzati in formato bfloat16 trovano spazio su una singola GPU NVIDIA H100 da 80GB. Questo modello si posiziona al terzo posto nella classifica dei modelli aperti su Arena AI, con un punteggio stimato di 1452.

La variante 26B Mixture-of-Experts attiva solo 3,8 miliardi di parametri durante l'inferenza, pur mantenendo un totale di 26 miliardi. Questa architettura MoE utilizza 128 esperti di piccole dimensioni, attivandone 8 più 1 esperto condiviso per token. Il risultato è una maggiore velocità di elaborazione mantenendo circa il 97% della qualità del modello 31B Dense, secondo i dati forniti da Google.

I modelli E2B ed E4B sono stati sviluppati in collaborazione con i team Google Pixel e produttori di hardware mobile come Qualcomm Technologies e MediaTek. Questi modelli mantengono capacità multimodali complete, inclusi testo, immagini e audio, pur operando con un footprint di memoria ridotto. L'obiettivo è l'esecuzione offline con latenza vicina a zero su dispositivi come smartphone, Raspberry Pi e NVIDIA Jetson Orin Nano.

Il cambio di licenza: da restrittiva ad Apache 2.0

⬆ Torna su

La modifica più rilevante rispetto alle versioni precedenti riguarda il framework giuridico. Le precedenti generazioni di Gemma utilizzavano una licenza personalizzata che imponeva restrizioni sull'uso commerciale e una policy di acceptable-use che Google poteva modificare unilateralmente. Questa impostazione richiedeva alle imprese di sottoporre ogni distribuzione a revisione legale.

Con Gemma 4, Google ha adottato la licenza Apache 2.0. Questa scelta rimuove i limiti sul numero di utenti attivi mensili, elimina l'applicazione di policy di utilizzo accettabile e concede libertà completa per distribuzioni sovrane e commerciali. La Apache 2.0 corrisponde all'apertura di Qwen 3.5 ed è più permissiva rispetto alla community license di Llama 4.

Secondo quanto riportato da ZDNet, la licenza Apache 2.0 garantisce la libertà di utilizzare il software per qualsiasi scopo, personale, commerciale o aziendale, senza royalties. Gli utenti possono modificare e ridistribuire il codice, con il diritto di creare opere derivate. La licenza include anche protezioni brevettuali: gli utenti ottengono una licenza per eventuali brevetti che coprono i contributi, e chi intenta una causa per violazione di brevetto perde automaticamente il diritto di utilizzare il software.

Performance e benchmark comparativi

⬆ Torna su

I test sui benchmark mostrano miglioramenti sostanziali rispetto a Gemma 3. Sul benchmark AIME 2026 per la matematica, il modello 31B ottiene l'89,2% rispetto al 20,8% di Gemma 3 27B. Su Codeforces, benchmark per la programmazione, il punteggio ELO passa da 110 a 2150. Il modello E4B supera Gemma 3 27B nella maggior parte dei benchmark pur avendo circa un sesto delle dimensioni.

Su BigBench Extra Hard, Gemma 3 otteneva il 19,3% mentre Gemma 4 31B raggiunge il 74,4%. Il punteggio MMLU Pro dell'85,2% per il modello 31B supera quello di Qwen 3.5 27B sullo stesso benchmark. Il modello 26B MoE si classifica al sesto posto tra i modelli aperti su Arena AI.

Secondo quanto dichiarato da Google, i modelli 31B Dense e 26B MoE "offrono intelligenza di frontiera" e possono superare modelli come GPT-OSS-120B, Qwen3.5-122B e Mistral-Large-3 in confronti diretti, nonostante questi ultimi abbiano parametri considerevolmente maggiori.

Partnership con NVIDIA e supporto hardware

⬆ Torna su

NVIDIA ha pubblicato guide di ottimizzazione disponibili dal giorno del lancio, coprendo l'intera linea di prodotti: dalle GPU Blackwell per data center fino ai moduli Jetson per l'edge e le schede GeForce RTX consumer. Il modello 31B opera non quantizzato in precisione BF16 su una singola H100, mentre le versioni quantizzate trovano spazio su GPU consumer con 24GB di memoria.

L'azienda ha reso disponibili microservizi NIM preconfezionati per l'inferenza, utilizzabili con una licenza NVIDIA Enterprise. La libreria NeMo Automodel gestisce il fine-tuning direttamente dai checkpoint di Hugging Face, supportando tecniche come supervised fine-tuning e LoRA senza richiedere conversione del modello. Questo riduce il tempo tra il download e la distribuzione di una versione personalizzata.

Sul fronte consumer, NVIDIA ha ottimizzato Gemma 4 per l'iniziativa RTX AI Garage. I benchmark con quantizzazione Q4 su un desktop RTX 5090 mostrano prestazioni di inferenza circa 2,7 volte superiori rispetto a un Apple M3 Ultra che esegue lo stesso modello tramite llama.cpp. Il supercomputer personale DGX Spark, con 128GB di memoria unificata, può eseguire il modello completo 31B in precisione BF16 per prototipazione locale e sviluppo di agenti.

AMD ha annunciato supporto dal giorno zero per Gemma 4 su GPU Instinct per data center, GPU Radeon per workstation e processori Ryzen AI. Questa ampiezza di supporto hardware differenzia Gemma 4 da modelli ottimizzati principalmente per un singolo produttore di silicio.

Capacità multimodali e contesto

⬆ Torna su

Tutti e quattro i modelli supportano l'elaborazione nativa di immagini e video. I due modelli edge E2B ed E4B aggiungono input audio nativo per il riconoscimento vocale e la comprensione direttamente sul dispositivo. Questa funzionalità permette compiti come OCR e comprensione di grafici su sistemi locali.

Le finestre di contesto si estendono a 256.000 token per i modelli più grandi e 128.000 token per le varianti edge. Quest'ultima dimensione corrisponde approssimativamente a un romanzo completo o a un intero codebase. I modelli edge con finestra di 128K non hanno equivalenti diretti nelle famiglie Llama 4 o Qwen 3.5 a queste dimensioni.

Per quanto riguarda le caratteristiche architetturali, Gemma 4 introduce diversi elementi tecnici. L'attenzione alternata prevede layer che alternano tra attenzione locale a finestra scorrevole (512-1024 token) e attenzione globale per il contesto completo. Il Dual RoPE utilizza embedding posizionali rotazionali standard per i layer a finestra e RoPE proporzionale per i layer globali. La Shared KV Cache permette agli ultimi N layer di riutilizzare tensori key/value dai layer precedenti, riducendo memoria e calcolo durante l'inferenza.

Supporto linguistico e applicazioni

⬆ Torna su

Google ha addestrato la famiglia su oltre 140 lingue, posizionando Gemma 4 come opzione per distribuzioni internazionali dove un singolo modello deve gestire requisiti linguistici diversificati. I modelli supportano pianificazione multi-step e logica complessa, con miglioramenti nei benchmark di matematica e istruzioni rispetto alla generazione precedente.

Per quanto riguarda gli usi agentic, Gemma 4 supporta nativamente function-calling, output JSON strutturato e istruzioni di sistema native. Questo permette agli sviluppatori di costruire agenti autonomi che interagiscono con strumenti e API esterni senza ulteriore ingegneria dei prompt. Le capacità di generazione di codice offline permettono di trasformare workstation in assistenti di programmazione AI locali.

Per gli sviluppatori Android, è possibile prototipare flussi agentic in anteprima AICore Developer per compatibilità futura con Gemini Nano 4. Un rappresentante Google ha confermato che la prossima generazione Gemini Nano 4 avrà varianti 2B e 4B basate su Gemma 4 E2B ed E4B.

Prime segnalazioni dalla community

⬆ Torna su

Entro 24 ore dal rilascio, i test della community hanno evidenziato alcune problematiche. Gli sviluppatori hanno riportato che la velocità di inferenza, in particolare con il modello MoE 26B, è risultata inferiore alle aspettative su alcune configurazioni hardware. La compatibilità del fine-tuning con le toolchain esistenti si è dimostrata incoerente nei primi test, sebbene Google abbia precedenti nella risoluzione di tali questioni nelle settimane successive ai lanci.

La famiglia non offre le finestre di contesto massive di alcuni competitor. Con 256.000 token, la finestra più ampia di Gemma 4 rimane sostanziale ma dista dalla capacità di 10 milioni di token di Llama 4 Scout e dall'offerta di un milione di token di Qwen. Per carichi di lavoro che richiedono l'elaborazione di documenti estremamente lunghi o interi repository in un singolo passaggio, queste differenze incidono sulla scelta.

Il mercato dei modelli open-weight nel 2026 risulta competitivo. Meta ha rilasciato Llama 4 Scout con finestra di contesto di 10 milioni di token. Alibaba ha pubblicato Qwen 3.6-Plus lo stesso giorno con finestra di un milione di token. Competitor cinesi come DeepSeek, Moonshot AI e Z.AI continuano a rilasciare modelli che competono con sistemi proprietari di frontiera.

Percorsi di distribuzione e accesso

⬆ Torna su

I modelli sono disponibili su Hugging Face con checkpoint BF16. Per NVIDIA Blackwell è disponibile un checkpoint quantizzato NVFP4 per Gemma-4-31B tramite NVIDIA Model Optimizer. NVFP4 abilita la precisione a 4-bit mantenendo accuratezza quasi identica a quella a 8-bit, aumentando le prestazioni per watt e riducendo il costo per token.

Per la distribuzione cloud, Google Cloud offre opzioni tramite Vertex AI, Cloud Run, GKE, Sovereign Cloud e serving accelerato TPU. I modelli possono essere testati gratuitamente in Google AI Studio (31B e 26B MoE) e AI Edge Gallery (E4B ed E2B). I pesi sono scaricabili da Hugging Face, Kaggle e Ollama.

Il supporto day-one include Hugging Face Transformers, TRL, Transformers.js, Candle, LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM e NeMo, LM Studio, Unsloth e SGLang. Secondo NVIDIA, la collaborazione con vLLM, Ollama e llama.cpp garantisce la migliore esperienza di distribuzione locale per ciascun modello Gemma 4.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

Il passaggio alla licenza Apache 2.0 potrebbe accelerare l'adozione aziendale di Gemma 4, rimuovendo gli ostacoli legali che hanno rallentato le versioni precedenti. La convergenza tra supporto hardware esteso e capacità multimodali su dispositivi edge colloca questa famiglia in una posizione distintiva rispetto ai competitor open-weight.

  • Scenario 1: Le aziende preferiscono Gemma 4 per distribuzioni sovrane, sfruttando la libertà commerciale completa e il supporto multimodale nativo su 140+ lingue.
  • Scenario 2: I modelli E2B ed E4B trovano spazio nell'edge computing, con implementazioni concrete su smartphone e dispositivi IoT grazie alle partnership con Qualcomm e MediaTek.
  • Scenario 3: La concorrenza si intensifica nel segmento open-weight, con possibili riduzioni delle restrizioni licenziali anche da altri produttori.

Cosa monitorare

⬆ Torna su
  • Tempistiche e qualità dei fork e delle varianti derivate che la comunità svilupperà.
  • Adozione effettiva nei flussi produttivi enterprise rispetto a Llama 4 e Qwen 3.5.
  • Prestazioni reali su hardware consumer rispetto ai benchmark dichiarati.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • llm
  • google
  • nvidia
  • opensource

Link utili

Apri l'articolo su DeafNews