NVIDIA Vera Rubin: la piattaforma AI in produzione per l'era dell'AI Agente

NVIDIA ha avviato la produzione della piattaforma Vera Rubin, un'architettura a 6 chip che promette performance di inference 5x superiori e costi per token 10x…

Contenuto

Scopri anche

In questo articolo:

Al CES 2026, il CEO di NVIDIA Jensen Huang ha confermato che la piattaforma Vera Rubin è ufficialmente in piena produzione a partire dal primo trimestre del 2026. La disponibilità generale per partner cloud e clienti enterprise è prevista per la seconda metà dell'anno. La piattaforma Rubin rappresenta un salto architetturale progettato per guidare la transizione dell'industria dai chatbot generativi semplici ad agenti autonomi dotati di capacità di ragionamento.

Architettura a 6 chip e specifiche tecniche

⬆ Torna su

La piattaforma Vera Rubin non è una semplice GPU, ma un'architettura di sistema unificata a 6 chip che tratta l'intero rack del data center come un'unica unità di calcolo. Il cuore del sistema è il GPU Rubin (R200), un chip dual-die con 336 miliardi di transistor, un aumento di densità del 60% rispetto al Blackwell B200. Il GPU è il primo a integrare la memoria HBM4 di prossima generazione, offrendo 288GB di capacità e una larghezza di banda senza precedenti di 22.2 TB/s. Questa potenza si traduce in 50 Petaflops di capacità di inference NVFP4.

Il GPU è affiancato dal Vera CPU, il primo processore high-performance di NVIDIA progettato specificamente per l'orchestrazione AI. Basato su 88 core ARM personalizzati "Olympus", il Vera CPU gestisce la complessa gestione dei task e il movimento dei dati necessari per alimentare le GPU senza colli di bottiglia. La documentazione indica che offre il doppio delle prestazioni per watt rispetto alle CPU per data center legacy. I chip sono interconnessi da NVLink 6, che fornisce 3.6 TB/s di banda bidirezionale per GPU, abilitando un ambiente "superchip" a livello di rack in cui 72 GPU agiscono come un unico processore seamless.

Completano l'architettura i componenti di infrastruttura: il BlueField-4 DPU, il ConnectX-9 SuperNIC e lo Spectrum-6 Ethernet Switch. Il BlueField-4 DPU offre prestazioni computazionali 6x superiori al predecessore e introduce l'ASTRA (Advanced Secure Trusted Resource Architecture) per isolare in sicurezza i carichi di lavoro multi-tenant agentic.

Il sistema Vera Rubin NVL72

⬆ Torna su

Il sistema rack-scale Vera Rubin NVL72 integra tutti i componenti. Ogni rack offre 3.6 exaFLOPS di prestazioni di inference NVFP4 e 2.5 exaFLOPS per il training. Dispone di 54 TB di memoria LPDDR5X connessa alle Vera CPU e 20.7 TB di HBM4 con 1.6 PB/s di banda. NVIDIA ha apportato significativi cambiamenti al design del chassis, rendendo l'intero sistema fanless, tubeless e cableless, raffreddato al 100% con liquido. La procedura consente tempi di installazione ridotti da due ore a soli cinque minuti.

Per la scalabilità, Vera Rubin introduce NVLink 6 per il networking "scale-up", con una banda per GPU di 3.6 TB/s (bidirezionale). Ogni switch NVLink 6 vanta 28 TB/s di banda e ogni rack NVL72 ne contiene nove per un totale di 260 TB/s. Per il networking "scale-out", NVIDIA introduce una coppia di switch Spectrum-X Ethernet con ottiche co-imballate, basati sul chip Spectrum-6 che offre 102.4 Tb/s di banda.

Miglioramenti di efficienza e costi

⬆ Torna su

La piattaforma promette un aumento delle prestazioni di inference fino a 5 volte superiore e una riduzione del costo per token fino a 10 volte inferiore per modelli Mixture-of-Esperti (MoE) rispetto alla generazione Blackwell. La documentazione specifica che con Vera Rubin è possibile addestrare modelli MoE utilizzando un quarto del numero di GPU richiesto da Blackwell. Questi guadagni di efficienza sono presentati come un fattore critico per la redditività dello sbarramento su larga scala dell'AI.

La piattaforma affronta il collo di bottiglia della Key-Value Cache, cruciale per modelli con contesti di milioni di token, attraverso i BlueField 4 DPU che creano una nuova tier di memoria: l'Inference Context Memory Storage Platform. Questo livello di storage è progettato per abilitare la condivisione efficiente e il riutilizzo dei dati della cache attraverso l'infrastruttura AI, migliorando reattività e throughput.

Implicazioni per il mercato e l'infrastruttura

⬆ Torna su

L'annuncio ha immediate ripercussioni sulle strategie di capitale dei grandi hyperscaler. Microsoft è stato indicato come lead launch partner, con piani di implementare sistemi Rubin NVL72 nei suoi nuovi superdata center "Fairwater". Anche Amazon, Google e Meta sono attesi come early adopter. La transizione verso l'AI Agente, che richiede potenza di calcolo sostenuta per workflow multi-step autonomi, guida la domanda per l'infrastruttura Rubin.

Tuttavia, le prestazioni hanno un costo in termini di energia. Il sistema Vera Rubin NVL72 richiede tra 130kW e 250kW di potenza per rack. Per affrontare questa "Power Wall", NVIDIA ha reso obbligatorio il raffreddamento a liquido diretto-al-chip per tutte le implementazioni Rubin. Questo cambiamento sta già perturbando il mercato dell'infrastruttura dei data center, spingendo gli hyperscaler verso design "AI-native" con busbar raffreddati a liquido e sottostazioni elettriche dedicate.

Le implicazioni ambientali e logistiche sono profonde. Per alimentare queste "AI Factories", le grandi tech company stanno investendo sempre di più in Small Modular Reactors (SMRs) e altre fonti di energia pulita dedicate.

Produzione e roadmap futura

⬆ Torna su

NVIDIA ha dichiarato di aver ricevuto tutti e sei i chip necessari per costruire i sistemi Vera Rubin NVL72 dalle fabbriche e di essere soddisfatta delle prestazioni dei carichi di lavoro testati. La produzione in volume è prevista per la seconda metà del 2026. La memoria HBM4 rimane il collo di bottiglia primario per la produzione Rubin. Durante il keynote, Huang ha anticipato l'architettura "Kyber" prevista per il 2028, che dovrebbe spingere le prestazioni a livello di rack nella gamma del megawatt.

La sfida immediata per NVIDIA sarà la gestione della supply chain. Inoltre, con l'avvento dell'era dell'"AI Agente", che gestirà dati sensibili, è previsto che il settore affronterà un intenso scrutinio regolatorio. I prossimi mesi potrebbero vedere un'impennata nelle iniziative "Sovereign AI", dove le nazioni cercheranno di costruire i propri data center alimentati da Rubin per mantenere dati e intelligence entro i confini nazionali.

Questo articolo è stato redatto esclusivamente sulla base delle fonti elencate, senza aggiunte speculative o informazioni esterne.

NVIDIA Vera Rubin: la piattaforma AI in produzione per l'era dell'AI Agente

Contenuto

Scopri anche

NVIDIA Vera Rubin: la piattaforma AI in produzione per l'era dell'AI Agente

Architettura a 6 chip e specifiche tecniche

Il sistema Vera Rubin NVL72

Miglioramenti di efficienza e costi

Implicazioni per il mercato e l'infrastruttura

Produzione e roadmap futura

Fonti

In breve

Link utili