Claude Sonnet 4.6: prestazioni vicine a Opus a un quinto del costo

Anthropic lancia Claude Sonnet 4.6 con finestra di contesto da 1 milione di token e punteggi al benchmark OSWorld che quintuplicano rispetto a 16 mesi fa. Il m…

Contenuto

Scopri anche

In questo articolo:

Anthropic ha rilasciato Claude Sonnet 4.6, un aggiornamento del modello di linguaggio che avvicina le prestazioni della fascia media a quelle della linea Opus, mantenendo invariata la tariffazione del predecessore. Il nuovo LLM introduce una finestra di contesto da 1 milione di token in versione beta e registra progressi nelle aree del coding, dell'uso del computer, del ragionamento su lunghi contesti e della pianificazione agentica.

Un ribaltamento nell'equazione costo-prestazioni

⬆ Torna su

Il dettaglio economico rappresenta l'elemento centrale del rilascio. I modelli Opus di Anthropic costano 15 dollari per milione di token in input e 75 in output, cinque volte il prezzo di Sonnet. Eppure, secondo i benchmark pubblicati, Sonnet 4.6 raggiunge prestazioni che prima richiedevano necessariamente un modello Opus. Su SWE-bench Verified, il test industriale per il coding reale, Sonnet 4.6 segna il 79,6%, contro l'80,8% di Opus 4.6. Su OSWorld-Verified, che misura la capacità di utilizzare un computer, Sonnet 4.6 ottiene il 72,5%, praticamente in parità con il 72,7% di Opus 4.6. Su OfficeQA, relativo ai task d'ufficio, Sonnet 4.6 supera Opus 4.6 con un punteggio di 1633 contro 1606.

Per le aziende che distribuiscono agenti AI con milioni di chiamate API giornaliere, la differenza tra 3 e 15 dollari per milione di token in input non è incrementale. Caitlin Colgrove, CTO di Hex Technologies, ha dichiarato che l'azienda sta spostando la maggior parte del traffico su Sonnet 4.6, rilevando che con il pensiero adattivo e alto impegno si ottengono prestazioni al livello Opus su tutti i task analitici tranne i più complessi, mantenendo un profilo più efficiente.

L'evoluzione dell'uso del computer

⬆ Torna su

La capacità di un'IA di operare un computer come un essere umano, cliccando un mouse virtuale e digitando su una tastiera virtuale, rappresenta una delle frontiere più rilevanti per le applicazioni enterprise. Quando Anthropic ha introdotto questa funzionalità nell'ottobre 2024, l'azienda ha riconosciuto che era ancora sperimentale e soggetta a errori. I dati da allora mostrano una traiettoria decisa: Sonnet 3.5 ha registrato il 14,9% su OSWorld nell'ottobre 2024, Sonnet 3.7 ha raggiunto il 28% nel febbraio 2025, Sonnet 4 il 42,2% a giugno, Sonnet 4.5 il 61,4% a ottobre. Ora Sonnet 4.6 arriva al 72,5%, un miglioramento di quasi cinque volte in sedici mesi.

I primi utilizzatori descrivono capacità prossime al livello umano in attività come la navigazione in fogli di calcolo complessi o la compilazione di moduli web multi-step, coordinando più schede del browser. Anthropic specifica comunque che il modello rimane indietro rispetto agli utenti più esperti e che i benchmark forniscono solo una misura parziale rispetto alle complessità del mondo reale.

Contesto da 1 milione di token e pianificazione strategica

⬆ Torna su

La finestra di contesto da 1 milione di token consente di caricare intere codeource, contratti lunghi o decine di documenti in un'unica richiesta. Anthropic sottolinea che non si tratta solo di caricare più dati, ma di far sì che il modello ragioni efficacemente su tutto quel contesto. La dimostrazione arriva attraverso Vending-Bench Arena, un benchmark che simula la gestione di un'attività commerciale nel tempo, con modelli IA in competizione per massimizzare i profitti. Senza prompting umano, Sonnet 4.6 ha sviluppato una strategia originale: investimenti pesanti nella capacità nei primi dieci mesi simulati, poi una svolta netta verso la redditività nella fase finale. Il modello ha chiuso la simulazione con un saldo di circa 5.700 dollari, contro i 2.100 di Sonnet 4.5.

La piattaforma Developer Platform supporta ora sia il pensiero adattivo sia il pensiero esteso, oltre alla compattazione del contesto in beta, che riassume automaticamente le parti più vecchie di una conversazione all'avvicinarsi dei limiti, aumentando la lunghezza effettiva gestibile.

Preferenze degli sviluppatori e casi d'uso

⬆ Torna su

Nel testing con Claude Code, lo strumento terminale di Anthropic per sviluppatori, gli utenti hanno preferito Sonnet 4.6 rispetto a Sonnet 4.5 in circa il 70% dei casi. I tester descrivono un modello meno soggetto a sovra-ingegnerizzazione, più rigoroso nel seguire le istruzioni, con meno allucinazioni e meno falsi positivi sul successo dei task. Il 59% ha preferito Sonnet 4.6 anche a Opus 4.5, il modello di punta di novembre 2025.

Box ha rilevato un miglioramento di 15 punti percentuali rispetto a Sonnet 4.5 nel question-answering che richiede ragionamento profondo su documenti aziendali reali. Rakuten AI ha valutato il codice iOS prodotto da Sonnet 4.6 come il migliore testato finora, con maggiore aderenza alle specifiche e architettura più pulita. Jamie Cuffe, CEO di Pace, ha riferito che il modello ha raggiunto il 94% sul benchmark aziendale per l'uso del computer nel settore assicurativo.

Resistenza agli attacchi e sicurezza

⬆ Torna su

L'uso del computer espone a rischi di prompt injection, ovvero attacchi che nascondono istruzioni malevole in pagine web o interfacce. Le valutazioni interne di Anthropic mostrano Sonnet 4.6 come un netto miglioramento rispetto a Sonnet 4.5 su questo fronte, allineandosi a Opus 4.6. I ricercatori descrivono il modello come dotato di un carattere caldo, onesto, prosociale e talvolta ironico, con comportamenti di sicurezza robusti e senza segnali di criticità gravi nelle situazioni ad alto rischio.

Disponibilità e piano gratuito

⬆ Torna su

Sonnet 4.6 è disponibile su tutti i piani Claude, Claude Cowork, Claude Code, tramite API e sui principali cloud provider. Anthropic ha aggiornato il piano gratuito con Sonnet 4.6 come modello predefinito, includendo funzioni prima riservate agli abbonati: creazione di file, connettori, skills e compattazione del contesto. La tariffazione resta ferma a 3 dollari per milione di token in input e 15 in output, identica a Sonnet 4.5. Anthropic continua a indicare Opus 4.6 come opzione preferibile per i compiti che richiedono il ragionamento più profondo, come la rifattorizzazione di grandi codebase o il coordinamento di più agenti.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La convergenza prestazionale tra fascia media e premium potrebbe ridefinire le gerarchie di mercato, rendendo il prezzo un fattore discriminante più che la qualità bruta. Le aziende con volumi elevati di chiamate API hanno ora un incentivo concreto a rivedere le proprie architetture.

Scenario 1: la fascia Opus si specializza su nicchie ad alto valore (coordinamento multi-agente, rifattorizzazione di grandi codebase), mentre Sonnet diventa lo standard operativo per la maggioranza dei task.
Scenario 2: l'uso del computer raggiunge maturità sufficiente per automazioni enterprise complesse, accelerando l'adozione in settori come assicurazioni e amministrazione.
Scenario 3: i competitor adeguano il rapporto costo-prestazioni, innescando una compressione generale dei margini sulla fascia premium.

Cosa monitorare

⬆ Torna su

Stabilità e tempi di uscita dalla beta per la finestra da 1 milione di token e la compattazione del contesto.
Tasso di adozione della funzionalità "uso del computer" in ambienti produttivi reali.
Eventuali aggiornamenti tariffari o repositioning dei modelli concorrenti.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Claude Sonnet 4.6: prestazioni vicine a Opus a un quinto del costo

Contenuto

Scopri anche

Claude Sonnet 4.6: prestazioni vicine a Opus a un quinto del costo

Un ribaltamento nell'equazione costo-prestazioni

L'evoluzione dell'uso del computer

Contesto da 1 milione di token e pianificazione strategica

Preferenze degli sviluppatori e casi d'uso

Resistenza agli attacchi e sicurezza

Disponibilità e piano gratuito

Implicazioni e scenari

Cosa monitorare

Fonti

In breve

Link utili