NVIDIA Blackwell Ultra GB300 NVL72: prestazioni e efficienza per l'inferenza AI

La nuova architettura Blackwell Ultra di NVIDIA raggiunge 50x di throughput per megawatt rispetto a Hopper, con riduzione dei costi per token fino a 35x per ca…

Contenuto

NVIDIA Blackwell Ultra GB300 NVL72: prestazioni e efficienza per l'inferenza AI

Scopri anche

NVIDIA Blackwell Ultra GB300 NVL72: prestazioni e efficienza per l'inferenza AI

NVIDIA Blackwell Ultra GB300 NVL72: la nuova architettura per l'inferenza AI su larga scala

In questo articolo:

L'architettura NVIDIA Blackwell Ultra, integrata nei sistemi GB300 NVL72, rappresenta un avanzamento significativo per gli hyperscaler e i provider di inferenza AI. I nuovi benchmark dimostrano miglioramenti sostanziali in throughput, efficienza energetica e costi operativi per carichi di lavoro a bassa latenza e contesto lungo, come quelli richiesti dagli AI agent e dagli assistenti di programmazione.

Prestazioni per megawatt: il salto generazionale

⬆ Torna su

Secondo i dati SemiAnalysis InferenceX citati da NVIDIA, i sistemi GB300 NVL72 raggiungono fino a 50x di throughput superiore per megawatt rispetto alla piattaforma Hopper. Questo incremento si traduce in una riduzione fino a 35x del costo per milione di token per l'inferenza a bassa latenza, tipica delle applicazioni agentic e degli strumenti di coding interattivi.

Il parametro "token per watt" è diventato uno dei dati più rilevanti per gli hyperscaler nella valutazione dell'infrastruttura AI. La combinazione di avanzamenti hardware e ottimizzazioni software ha permesso a GB300 NVL72 di raggiungere questo risultato grazie all'architettura NVLink espansa a 72 GPU, unite in un tessuto unificato con connettività di 130 TB/s. Il confronto con Hopper, limitato a un design NVLink a 8 chip, evidenzia la differenza architetturale alla base del miglioramento.

NVFP4: il formato di precisione a 4 bit

⬆ Torna su

Blackwell Ultra introduce il formato di precisione NVFP4, che combina uno scaling a due livelli: una micro-block scale FP8 (E4M3) applicata a blocchi di 16 valori, più una scala tensor-level FP32. Questo approccio consente una quantizzazione accelerata via hardware con tassi di errore inferiori rispetto all'FP4 standard. NVFP4 raggiunge accuratezza quasi equivalente all'FP8, con differenze inferiori all'1%, riducendo l'occupazione di memoria di circa 1,8x rispetto all'FP8 e fino a 3,5x rispetto all'FP16.

La capacità di calcolo NVFP4 densa di Blackwell Ultra raggiunge 15 PetaFLOPS, un incremento di 1,5x rispetto al GPU Blackwell base e di 7,5x rispetto ai GPU Hopper H100 e H200. Questo miglioramento si riflette direttamente nell'inferenza su larga scala, consentendo più istanze di modello concorrenti, tempi di risposta più rapidi e costi per token inferiori.

Architettura del chip: specifiche tecniche

⬆ Torna su

Il GPU Blackwell Ultra è composto da due dies di dimensioni reticolari collegati tramite NVIDIA High-Bandwidth Interface (NV-HBI), una tecnologia di interconnessione die-to-die personalizzata che fornisce 10 TB/s di larghezza di banda. Prodotto con processo TSMC 4NP, integra 208 miliardi di transistor, 2,6x in più rispetto al GPU Hopper, funzionando come un singolo acceleratore programmabile CUDA.

Il cuore dell'architettura include 160 Streaming Multiprocessor (SM) organizzati in otto Graphics Processing Clusters (GPC). Ogni SM contiene quattro Tensor Core di quinta generazione, per un totale di 640 Tensor Core ottimizzati per il formato NVFP4. Gli SM integrano inoltre 256 KB di Tensor Memory (TMEM) per mantenere i dati vicini alle unità di calcolo, supportando operazioni dual-thread-block MMA dove SM accoppiati cooperano su una singola operazione matrix multiply-accumulate.

La memoria HBM3E da 288 GB per GPU offre 3,6x più memoria on-package rispetto a H100 e il 50% in più rispetto a Blackwell. Questa capacità è necessaria per ospitare modelli da trilioni di parametri, estendere la lunghezza del contesto senza offloading della KV-cache e abilitare inferenza ad alta concorrenza.

Elaborazione attention accelerata

⬆ Torna su

Per i carichi di lavoro AI moderni che richiedono contesti di input lunghi e sequenze di output estese per il "ragionamento", i layer attention dei transformer stressano operazioni trascendentali come esponenziali e divisioni eseguite dalle SFU (Special Function Units). In Blackwell Ultra, il throughput SFU è stato raddoppiato per le istruzioni chiave usate nell'attention, garantendo fino a 2x velocità di calcolo nell'attention layer rispetto ai GPU Blackwell.

Questo miglioramento accelera l'attention sia per sequenze brevi che lunghe, con impatto particolare sui modelli di ragionamento con finestre di contesto ampie, dove lo stadio softmax può diventare un collo di bottiglia di latenza. L'accelerazione del meccanismo attention, combinata con la precisione NVFP4, produce un miglioramento significativo per l'inferenza LLM e multimodale.

Scenario long-context: il vantaggio di GB300

⬆ Torna su

I dati NVIDIA mostrano che i vantaggi di GB300 NVL72 rispetto a GB200 NVL72 emergono con maggiore evidenza negli scenari long-context. Per carichi di lavoro con input da 128.000 token e output da 8.000 token, tipici degli assistenti AI che analizzano intere codebase, GB300 NVL72 garantisce fino a 1,5x costi per token inferiori rispetto a GB200 NVL72.

La motivazione tecnica risiede nelle prestazioni di calcolo NVFP4 superiori di 1,5x e nell'elaborazione attention 2x più veloce. Man mano che un AI agent legge più codice, la finestra di contesto cresce, migliorando la comprensione ma richiedendo molta più potenza di calcolo e larghezza di banda di memoria. GB300 gestisce questi contesti giganti in modo efficiente.

Ottimizzazioni software e miglioramenti progressivi

⬆ Torna su

Le ottimizzazioni software dai team NVIDIA TensorRT-LLM, Dynamo, Mooncake e SGLang continuano a migliorare il throughput dei sistemi Blackwell NVL72 per l'inferenza mixture-of-experts. I miglioramenti della libreria TensorRT-LLM hanno già prodotto fino a 5x migliori prestazioni su GB200 per carichi di lavoro a bassa latenza rispetto a quattro mesi prima.

Tra le tecniche software e di sistema che contribuiscono al throughput superiore figurano NVLink Symmetric Memory per l'accesso diretto GPU-to-GPU alla memoria e una comunicazione più efficiente, oltre al "programmatic dependent launch", un metodo per ridurre i tempi di inizio iniziando la configurazione del kernel successivo prima del completamento di quello precedente.

Adozione da parte di provider cloud e di inferenza

⬆ Torna su

Microsoft, CoreWeave e Oracle Cloud Infrastructure stanno implementando i sistemi GB300 NVL72 in ambienti di produzione per casi d'uso a bassa latenza e contesto lungo, inclusi coding agentic e assistenti di programmazione. I provider di inferenza Baseten, DeepInfra, Fireworks AI e Together AI hanno già adottato la piattaforma Blackwell, riportando riduzioni fino a 10x del costo per token rispetto a implementazioni precedenti.

Chen Goldberg, senior vice president of engineering di CoreWeave, ha dichiarato che con l'inferenza al centro della produzione AI, le prestazioni long-context e l'efficienza dei token sono diventate parametri rilevanti. La piattaforma Grace Blackwell NVL72 affronta questa sfida direttamente.

I sistemi rack-scale GB300 NVL72 hanno un prezzo riportato di circa 3 milioni di dollari, con ramp-up produttivo previsto nel primo trimestre 2026.

La crescita dei carichi di lavoro agentic AI

⬆ Torna su

Secondo il report State of Inference di OpenRouter, le query AI relative alla programmazione software sono passate dall'11% a circa il 50% nell'ultimo anno. Queste applicazioni richiedono bassa latenza per mantenere reattività in tempo reale attraverso workflow multi-step, e contesto lungo per ragionare su intere codebase.

L'analisi Signal65 citata da NVIDIA mostra che GB200 NVL72 con codesign hardware-software estremo garantisce oltre 10x più token per watt, traducendosi in un decimo del costo per token rispetto alla piattaforma Hopper. Questi miglioramenti continuano ad ampliarsi man mano che lo stack sottostante viene perfezionato.

Il superchip Grace Blackwell Ultra

⬆ Torna su

Il superchip NVIDIA Grace Blackwell Ultra combina una CPU Grace con due GPU Blackwell Ultra tramite NVLink-C2C, offrendo fino a 30 PFLOPS densi e 40 PFLOPS sparsi di calcolo AI NVFP4. Integra 1 TB di memoria unificata che combina HBM3E e LPDDR5X, con ConnectX-8 SuperNIC che fornisce connettività di rete ad alta velocità a 800 Gb/s. Questo superchip costituisce il componente computazionale fondamentale del sistema rack-scale GB300 NVL72.

Caratteristiche enterprise e sicurezza

⬆ Torna su

Blackwell Ultra integra funzionalità enterprise-grade che semplificano le operazioni e potenziano la sicurezza. Include motori specializzati per carichi di lavoro AI moderni che richiedono elaborazione dati multimodale. Mantiene piena compatibilità backward con l'ecosistema CUDA, introducendo ottimizzazioni per framework AI di nuova generazione.

La prossima generazione: piattaforma Rubin

⬆ Torna su

NVIDIA ha già anticipato la piattaforma Rubin come successore di Blackwell. Rubin combina sei nuovi chip in un singolo design AI supercomputer. Per l'inferenza mixture-of-experts, Rubin promette fino a 10x throughput superiore per megawatt rispetto a Blackwell, traducendosi in un decimo del costo per milione di token. Per il training di modelli frontier di prossima generazione, Rubin sarà in grado di addestrare grandi modelli MoE utilizzando solo un quarto dei GPU richiesti da Blackwell.

Le ottimizzazioni software continue dovrebbero continuare a sbloccare ulteriori miglioramenti di prestazioni e costi across la base installata dei sistemi Blackwell.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

L'evoluzione architetturale di Blackwell Ultra potrebbe ridefinire le strategie infrastrutturali dei principali hyperscaler, con conseguenze rilevanti per l'ecosistema dell'inferenza su larga scala.

  • Scenario 1: Provider come Microsoft e Oracle potrebbero accelerare la transizione da Hopper a Blackwell Ultra, sfruttando i 50x di throughput per megawatt per consolidare margini operativi più sostenibili.
  • Scenario 2: La crescita dei carichi long-context potrebbe spingere verso adozione preferenziale di GB300 rispetto a GB200, specie per applicazioni di coding agentic con finestre di contesto estese.
  • Scenario 3: Il prezzo di circa 3 milioni di dollari per sistema potrebbe concentrare l'adozione tra pochi attori con capitale sufficiente, lasciando spazio a soluzioni alternative per provider mid-tier.

Cosa monitorare

⬆ Torna su
  • Il rispetto della finestra temporale per il ramp-up produttivo nel primo trimestre 2026.
  • L'effettiva riduzione dei costi per token dichiarata dai provider di inferenza già operativi.
  • L'evoluzione delle ottimizzazioni software e il loro impatto sulle prestazioni nel tempo.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • blackwell
  • NVIDIA
  • GB300
  • NVL72

Link utili

Apri l'articolo su DeafNews