Google presenta Gemini 3: il nuovo modello LLM con ragionamento avanzato e capacità agentiche

Google DeepMind lancia Gemini 3 Pro e la modalità Deep Think, con risultati record nei benchmark, analisi video nativa e la nuova piattaforma di sviluppo Antig…

Contenuto

Google presenta Gemini 3: il nuovo modello LLM con ragionamento avanzato e capacità agentiche

Scopri anche

Google presenta Gemini 3: il nuovo modello LLM con ragionamento avanzato e capacità agentiche

Google Gemini 3: ragionamento avanzato, multimodalità e capacità agentiche

In questo articolo:

Google DeepMind ha rilasciato Gemini 3, descrivendolo come il modello più avanzato prodotto finora per comprensione multimodale, programmazione agentica e ragionamento. L'annuncio, avvenuto il 18 novembre 2025, rappresenta una tappa significativa nel percorso verso l'intelligenza artificiale generale (AGI), secondo quanto dichiarato da Demis Hassabis, CEO di Google DeepMind, e Koray Kavukcuoglu, CTO e Chief AI Architect. A febbraio 2026 è stata inoltre annunciata l'evoluzione Gemini 3.1 Pro, che introduce miglioramenti nelle prestazioni e nel ragionamento di base.

Gemini 3 Pro: risultati record nei benchmark

⬆ Torna su

Gemini 3 Pro stabilisce nuovi standard nei principali benchmark del settore. Il modello ha raggiunto un punteggio di 1501 su LMArena, ottenendo risultati elevati in test di ragionamento complesso come Humanity's Last Exam (37,5%), Video-MMMU (87,6%) e ARC-AGI-2 (31%). I punteggi mostrano progressi anche in GPQA Diamond, che valuta conoscenza scientifica avanzata in fisica, chimica, biologia molecolare e scienze computazionali, con un risultato comparabile alla preparazione di un ricercatore specializzato.

Nei test matematici, Gemini 3 ha raggiunto il 100% su MathArena Apex con code execution e ha mostrato prestazioni superiori ai competitor su benchmark come SWE-bench Verified per lo sviluppo software. Secondo i dati diffusi da Google, il modello supera GPT-5.1 in quasi tutte le categorie critiche, posizionandosi ai vertici per ragionamento, multimodalità e capacità di utilizzo degli strumenti.

Deep Think: la modalità di ragionamento esteso

⬆ Torna su

Accanto al modello principale, Google ha introdotto Deep Think, una modalità che spinge ulteriormente le capacità di analisi e risoluzione dei problemi. Deep Think ottiene risultati superiori rispetto a Gemini 3 Pro in prove selezionate, dimostrando vantaggi in compiti complessi e in benchmark difficili come ARC-AGI, indicando una maggiore capacità di risolvere sfide nuove. La modalità misura la capacità del modello di portare avanti autonomamente compiti lunghi, con scelte, errori, correzioni e strategia.

La distribuzione di Deep Think avverrà in modo graduale: Google sta dedicando più tempo alle valutazioni di sicurezza e alla raccolta di feedback dai tester specializzati prima di renderla disponibile agli abbonati Google AI Ultra nelle settimane successive al lancio. Gemini 3.1 Pro funge da base per l'ultimo aggiornamento di Deep Think, secondo quanto specificato da Google.

Analisi video nativa e multimodalità

⬆ Torna su

Un ambito in cui Gemini 3 distanzia nettamente i competitor è l'analisi video nativa. Durante i test condotti dai beta tester, il modello ha analizzato trailer cinematografici descrivendo le scene, individuando momenti specifici al secondo e interpretando le emozioni dei protagonisti. Con video tutorial di 45 minuti, il sistema ha restituito i momenti salienti con timestamp precisi. Questa capacità deriva dall'addestramento multimodale su testi, immagini, video e suoni, abbinato a una context window di 1 milione di token disponibile sui piani Pro e Ultra.

Gemini 3 è progettato per sintetizzare informazioni in più modalità - testo, immagini, video, audio e codice - e supportare l'apprendimento personalizzato. Le applicazioni spaziano dalla trascrizione e traduzione di ricette manoscritte alla generazione di flashcard, visualizzazioni e piani di allenamento basati sull'analisi video. Il modello può inoltre creare animazioni pronte per siti web direttamente da prompt testuali, con output in codice puro anziché formato video, offrendo qualità superiore con occupazione di spazio ridotta.

Antigravity: la piattaforma di sviluppo agentica

⬆ Torna su

Google ha presentato Antigravity, una piattaforma di sviluppo agentica gratuita in preview pubblica per Mac, Windows e Linux. Non si tratta di un semplice IDE con assistente in sidebar, ma di uno strumento che fornisce agli agenti accesso autonomo a editor, terminale e browser. Gli agenti possono pianificare, eseguire e validare autonomamente task software complessi end-to-end, sfruttando le capacità di Gemini 3 per elevare gli agenti a partner attivi.

Antigravity è un fork di VS Code ottimizzato per lasciare spazio agli agenti, con permessi espliciti, log visibili e artefatti chiari come diff, piani, test e registrazioni. L'approccio ricorda strumenti come Cursor e Windsurf, ma con una differenza: l'agente non lavora accanto all'IDE, ma dentro l'IDE, coordinando superfici diverse come terminale e browser. Ollama ha aggiunto Gemini 3 Pro Preview nella propria libreria cloud, con supporto multimodale completo e contesto da 1 milione di token.

Capacità agentiche e pianificazione

⬆ Torna su

Gemini 3 è descritto come il miglior modello per programmazione basata su agenti e per la generazione zero-shot di interfacce ricche. I test di pianificazione prolungata, come Vending-Bench 2, mostrano un uso coerente degli strumenti su orizzonti di lungo periodo con risultati più stabili. Il modello dimostra capacità di gestire flussi di lavoro complessi e multi-step - dalla gestione della posta alla pianificazione di viaggi - sempre sotto il controllo dell'utente.

Nel test della Ghigliottina, un gioco di associazioni logiche che richiede pensiero laterale e profonda conoscenza culturale, il modello ha risolto l'enigma senza esitazioni, a differenza di GPT-5.1. Nella scrittura di codice, Gemini 3 supera Claude Sonnet in alcuni benchmark, sebbene i test dei beta tester abbiano mostrato risultati discontinui nella creazione di dashboard interattive da fogli elettronici, con miglioramenti nei giorni successivi al rilascio pubblico.

Sicurezza e disponibilità

⬆ Torna su

Google DeepMind afferma che Gemini 3 è il modello più sicuro prodotto finora, con minore tendenza ad assecondare l'utente, maggiore resistenza alla prompt injection e migliore protezione contro abusi. L'azienda segnala valutazioni interne ed esterne, collaborazioni con enti regolatori e test indipendenti. Le funzionalità più avanzate, come Deep Think e gli agenti completi, saranno disponibili in Europa e Italia progressivamente tra fine 2025 e 2026, in base alle verifiche di sicurezza e alle normative EU AI Act.

Il rollout è immediato e su larga scala: la Ricerca integra Gemini 3 nella nuova AI Mode, con layout dinamici, visualizzazioni generate al volo e strumenti interattivi. L'app Gemini adotta il modello come motore principale dell'esperienza quotidiana, mentre sviluppatori e imprese possono accedervi tramite AI Studio, Vertex AI e Gemini CLI. Gemini 3.1 Pro è già disponibile in anteprima con distribuzione su larga scala annunciata al più presto.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

L'evoluzione di Gemini 3 e della modalità Deep Think suggerisce una traiettoria verso sistemi capaci di gestire autonomamente compiti complessi, con ripercussioni potenziali sui flussi di lavoro professionali e sullo sviluppo software.

  • Scenario competitivo: il posizionamento superiore a GPT-5.1 nei benchmark potrebbe ridefinire gli equilibri del mercato, spingendo i competitor ad accelerare innovazioni nel ragionamento esteso.
  • Scenario agentico: la piattaforma Antigravity, integrando agenti direttamente nell'IDE, potrebbe trasformare il ruolo degli sviluppatori da scrittori di codice a supervisori di processi automatizzati.
  • Scenario normativo: la distribuzione graduale in Europa, condizionata alle verifiche EU AI Act, potrebbe creare divari temporanei nell'accesso alle funzionalità più avanzate tra mercati geografici.

Cosa monitorare

⬆ Torna su
  • L'effettiva disponibilità di Deep Think per gli abbonati Google AI Ultra e i tempi di rilascio.
  • I feedback indipendenti sui benchmark di ragionamento complesso come ARC-AGI-2.
  • L'adozione di Antigravity nella comunità sviluppatori rispetto a strumenti come Cursor e Windsurf.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • google
  • llm
  • reasoning
  • agentic

Link utili

Apri l'articolo su DeafNews