Gemini 3 Deep Think e Agentic Vision: le nuove capacità di ragionamento di Google

Google presenta Gemini 3 Deep Think per problemi scientifici complessi e Agentic Vision per l'analisi attiva delle immagini. Benchmark, applicazioni pratiche e…

Contenuto

Scopri anche

In questo articolo:

Google ha rilasciato Gemini 3 con due innovazioni principali: la modalità Deep Think, progettata per affrontare problemi scientifici complessi attraverso un ragionamento multi-passo, e Agentic Vision, una funzionalità che trasforma l'analisi delle immagini da processo passivo a investigazione attiva. Entrambe le tecnologie puntano a colmare il divario tra prestazioni accademiche e applicazioni pratiche in ambito ricerca scientifica, ingegneria e sviluppo software.

Gemini 3 Deep Think: architettura e principio di funzionamento

⬆ Torna su

Deep Think rappresenta un cambio di approccio rispetto alla consueta corsa all'aumento dei parametri. La modalità non consiste in un modello più grande, ma in un sistema che dispone di maggior tempo e risorse per elaborare le risposte. Quando riceve una domanda, il modello non genera una soluzione immediata: esplora diversi percorsi logici, costruisce catene di ragionamento complesse e verifica il proprio lavoro prima di arrivare a una conclusione. Questo meccanismo di autovalutazione interna aumenta precisione e affidabilità nei contesti ad alta complessità tecnica.

Google ha sviluppato Deep Think in collaborazione con scienziati e ricercatori, con l'obiettivo di affrontare sfide dove mancano riferimenti chiari, i dati sono disordinati e spesso non esiste una sola risposta corretta. La modalità combina rigore matematico e utilità ingegneristica, uscendo dalla teoria astratta per supportare attività reali: dalla lettura critica di articoli scientifici alla progettazione di componenti fisici, fino alla modellazione di sistemi complessi tramite codice.

Risultati sui benchmark accademici

⬆ Torna su

Deep Think ha ottenuto risultati significativi su benchmark selettivi pensati per misurare il ragionamento di modelli di frontiera. Su Humanity's Last Exam, test costruito per verificare i limiti dei modelli di ultima generazione, ha raggiunto il 48,4% senza strumenti esterni. Su ARC-AGI-2, benchmark che misura capacità di generalizzazione e ragionamento astratto, ha ottenuto l'84,6%, risultato verificato dalla ARC Prize Foundation. Il concorrente più vicino, Claude Opus 4.6, si è fermato al 68,8%.

Nel campo della programmazione competitiva, Deep Think ha raggiunto un Elo di 3455 su Codeforces, piattaforma che raccoglie sfide di coding ad alta difficoltà. Il modello mantiene inoltre prestazioni da medaglia d'oro all'International Math Olympiad 2025 e mostra risultati di livello medaglia d'oro nelle sezioni scritte delle Olimpiadi Internazionali di Fisica 2025 e Chimica 2025. Su CMT-Benchmark, test sulla materia condensata teorica, ha ottenuto il 50,5%, dimostrando competenza in un dominio che richiede combinazione di formalismo matematico e comprensione fisica.

Applicazioni pratiche nella ricerca scientifica

⬆ Torna su

Lisa Carbone, matematica della Rutgers University, ha utilizzato Deep Think per rivedere un articolo di matematica altamente tecnico nel campo della fisica delle alte energie. In un ambito dove i dati di addestramento sono scarsi, il modello ha individuato un difetto logico sottile in un lavoro che aveva già superato la peer review umana. Questo risultato evidenzia il potenziale come strumento di controllo critico in contesti dove la complessità rende facile trascurare passaggi chiave.

Il Wang Lab della Duke University ha impiegato Deep Think per ottimizzare i metodi di fabbricazione legati alla crescita di cristalli complessi, con l'obiettivo di scoprire nuovi materiali semiconduttori. Il modello ha progettato una "ricetta" di crescita per film sottili più grandi di 100 μm, centrando un obiettivo preciso che in precedenza aveva creato difficoltà. Nel settore hardware, Anupam Pathak, responsabile R&D nella divisione Platforms and Devices di Google, ha testato Deep Think per accelerare la progettazione di componenti fisici, riducendo tentativi ed errori nella fase concreta di design.

Agentic Vision: l'analisi attiva delle immagini

⬆ Torna su

Google ha introdotto Agentic Vision in Gemini 3 Flash, funzionalità che modifica il modo in cui i modelli analizzano le immagini. Invece di osservare staticamente, il sistema interroga attivamente l'immagine, genera codice Python per manipolarla e trae conclusioni basate su prove visive verificabili. L'approccio si articola in un ciclo Think-Act-Observe: nella prima fase il modello esamina la richiesta e formula un piano multi-step; nella seconda genera ed esegue codice per ritagliare, ruotare, annotare o caleffettuare calcoli; nella terza l'immagine trasformata viene aggiunta al contesto per un'analisi più precisa.

Questa metodologia garantisce un miglioramento costante della qualità compreso tra il 5% e il 10% su gran parte dei test visivi. Agentic Vision sblocca tre funzionalità principali: zoom e ispezione automatica con ingrandimento di sezioni specifiche; annotazione visiva diretta con riquadri, frecce o etichette numeriche disegnate sull'immagine; matematica visiva con analisi di tabelle ed estrazione di dati numerici per generare grafici tramite codice Python.

Test comparativi e prestazioni visive

⬆ Torna su

In un test pratico che prevedeva l'analisi di una fotografia con due libri posizionati al contrario, di cui uno con titolo parzialmente coperto, tre modelli hanno mostrato risultati differenti. Claude Sonnet 4.5 ha letto correttamente entrambi i titoli nonostante l'orientamento invertito e l'occlusione parziale. Gemini 3 Flash con Agentic Vision ha egualmente identificato i titoli corretti, ed è stato l'unico a riportare il titolo italiano de "Il Risveglio". GPT 5.2 ha completato il confronto.

Il ciclo iterativo Think-Act-Observe riduce il rischio di allucinazioni tipiche dei modelli linguistici durante operazioni su dati visivi. Il modello può ripetere il processo più volte, raffinando progressivamente la comprensione attraverso l'esecuzione di codice e la manipolazione diretta dell'immagine.

Google Antigravity e programmazione agentica

⬆ Torna su

Insieme a Gemini 3, Google ha lanciato Antigravity, una piattaforma che modifica l'interazione tra sviluppatori e intelligenza artificiale durante la programmazione. A differenza degli assistenti AI tradizionali che suggeriscono approcci al codice, Antigravity trasforma l'AI in un partner di sviluppo autonomo: può analizzare il codice esistente, esaminare gli obiettivi del progetto, produrre nuovo codice, testarlo e identificare problemi, riducendo l'intervento umano nelle operazioni ripetitive.

La piattaforma è attualmente gratuita con alcuni limiti di velocità e permette di accedere, oltre a Gemini 3, anche a Claude Sonnet 4.5 di Anthropic e GPT-OSS di OpenAI. Gemini 3 risulta il modello predefinito per AI Overview ed è integrato in AI Mode nella Ricerca per UI generative e simulazioni interattive. Il modello è disponibile in Google AI Studio, Vertex AI, Gemini CLI e su piattaforme terze come Cursor, GitHub, JetBrains, Manus e Replit.

Disponibilità e modelli di accesso

⬆ Torna su

Deep Think è disponibile nella app Gemini per gli abbonati a Google AI Ultra e, per la prima volta, tramite Gemini API per una selezione di ricercatori, ingegneri e aziende che possono richiedere l'accesso anticipato. Google sta effettuando valutazioni di sicurezza aggiuntive e raccogliendo feedback da tester specializzati prima di estendere la disponibilità della modalità Deep Think. Agentic Vision è accessibile in preview attraverso l'API Gemini integrata in Google AI Studio e Vertex AI, mentre per l'app Gemini il rilascio graduale è già iniziato attivando la modalità Thinking dal menu.

L'abbonamento Google AI Plus è stato esteso a 35 paesi, Italia inclusa. Gemini 3 è disponibile dal 18 novembre 2025 tramite l'app dedicata, che conta oltre 650 milioni di iscritti, nelle Overviews e attraverso i canali AI Studio e Vertex AI, in versione gratuita e a pagamento. L'azienda di Mountain View evidenzia miglioramenti nella sicurezza: minore tendenza ad assecondare l'utente, maggiore resistenza alla prompt injection e migliore protezione contro abusi.

Sviluppi futuri previsti

⬆ Torna su

Google ha delineato diverse direttrici per l'evoluzione di Agentic Vision. È prevista l'integrazione di strumenti aggiuntivi tra cui ricerca web e ricerca inversa per immagini, permettendo a Gemini 3 Flash di contestualizzare ulteriormente le analisi visive. La funzionalità sarà estesa ad altri modelli della famiglia Gemini, non limitandosi a Flash ma includendo Gemini 3 Pro per ampliare il ventaglio di applicazioni possibili.

Per Deep Think, Google prevede un rilascio graduale dopo ulteriori valutazioni di sicurezza. L'azienda annuncia l'intenzione di rilasciare modelli aggiuntivi della serie Gemini 3, invitando gli utenti a sperimentare le funzionalità e fornire feedback per le evoluzioni future. I risultati sui benchmark collocano Deep Think in un'area dove i modelli generali faticano: la gestione di domini scientifici complessi, con vincoli rigorosi e poca tolleranza agli errori concettuali.

Considerazioni su accessibilità e mercato

⬆ Torna su

La disponibilità selettiva di Deep Think tramite abbonamento premium solleva interrogativi sulla creazione di un'intelligenza artificiale a due velocità, con strumenti di ragionamento avanzato accessibili solo a chi può permetterseli. La potenza di calcolo richiesta dalla modalità si traduce in costi più alti, e resta da verificare se diventerà uno standard accessibile o rimarrà riservata a un'utenza limitata, aumentando il divario tra grandi corporation e piccole imprese.

Per i publisher e i brand, l'integrazione di Gemini 3 nella SERP con AI Mode trasforma la pagina dei risultati in una "canva di matrice generativa". Come già verificato con le Overviews, si assiste a una riduzione del traffico diretto verso i siti web perché l'utente trova le informazioni nella risposta iniziale. I publisher si trovano a valutare se fornire contenuti all'AI o astenersi, con conseguenze sulla visibilità. Per i brand diventa necessario adottare un approccio SEO con integrazione GEO.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

L'introduzione di Deep Think e Agentic Vision potrebbe ridefinire il ruolo dei sistemi di ragionamento in contesti ad alta complessità tecnica. La capacità di individuare errori logici in lavori già sottoposti a peer review o di progettare protocolli per materiali semiconduttori suggerisce un potenziale passaggio da strumenti di supporto a partner effettivi nella ricerca.

Scenario 1: L'estensione progressiva dell'accesso API potrebbe accelerare l'adozione tra istituti di ricerca e dipartimenti universitari, consolidando la posizione nei settori scientifici.
Scenario 2: Il divario nei benchmark rispetto a Claude e GPT potrebbe ridursi rapidamente, con possibili miglioramenti su entrambi i fronti.
Scenario 3: L'integrazione in Antigravity potrebbe trasformare i flussi di sviluppo software, riducendo l'intervento umano sulle operazioni ripetitive.

Cosa monitorare

⬆ Torna su

Tempi e criteri per l'apertura dell'accesso a Deep Think oltre i tester selezionati.
Evoluzione delle prestazioni visive rispetto ai competitor diretti su casi d'uso complessi.
Adozione effettiva da parte di laboratori e aziende hardware per applicazioni concrete.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Gemini 3 Deep Think e Agentic Vision: le nuove capacità di ragionamento di Google

Contenuto

Scopri anche

Gemini 3 Deep Think e Agentic Vision: le nuove capacità di ragionamento di Google

Gemini 3 Deep Think: architettura e principio di funzionamento

Risultati sui benchmark accademici

Applicazioni pratiche nella ricerca scientifica

Agentic Vision: l'analisi attiva delle immagini

Test comparativi e prestazioni visive

Google Antigravity e programmazione agentica

Disponibilità e modelli di accesso

Sviluppi futuri previsti

Considerazioni su accessibilità e mercato

Implicazioni e scenari

Cosa monitorare

Fonti

In breve

Link utili