NVIDIA GTC 2026: La roadmap Vera Rubin, Feynman e l'integrazione di Groq LPUs ridefiniscono l'infrastruttura AI

NVIDIA annuncia al GTC 2026 la piattaforma Vera Rubin già in produzione, l'architettura Feynman prevista per il 2028 con 3D stacking e HBM custom, e l'integraz…

Contenuto

NVIDIA GTC 2026: La roadmap Vera Rubin, Feynman e l'integrazione di Groq LPUs ridefiniscono l'infrastruttura AI

Scopri anche

NVIDIA GTC 2026: La roadmap Vera Rubin, Feynman e l'integrazione di Groq LPUs ridefiniscono l'infrastruttura AI

NVIDIA GTC 2026: La roadmap Vera Rubin, Feynman e l'integrazione di Groq LPUs ridefiniscono l'infrastruttura AI

In questo articolo:

Al GPU Technology Conference 2026, NVIDIA ha presentato un aggiornamento sostanziale della propria roadmap per i data center, confermando l'intenzione di introdurre una nuova architettura GPU ogni due anni e aggiornare la famiglia AI GPU annualmente. La conferenza ha segnato anche l'ingresso di NVIDIA nel mercato dell'hardware dedicato all'inference grazie all'integrazione dei Groq LPUs, hardware specializzato per la generazione di token a bassa latenza acquisito con l'acquisto di Groq avvenuto nel 2025.

Vera Rubin: la piattaforma AI già in produzione

⬆ Torna su

La piattaforma Vera Rubin rappresenta il cuore degli annunci del GTC 2026. NVIDIA ha confermato che il sistema è già in produzione, con la prima unità operativa all'interno di Microsoft Azure come dichiarato pubblicamente dal CEO Satya Nadella. La piattaforma integra sette tipi di chip in cinque configurazioni rack-scale: la GPU Rubin, la CPU Vera, gli switch NVLink 6, le schede di rete ConnectX-9, i data processing unit BlueField-4, le schede di rete Spectrum-X con ottica co-packaged e i Groq 3 LPUs.

L'unità di calcolo fondamentale è il rack NVL72, che ospita 72 GPU Rubin, 36 CPU Vera, ConnectX-9 SuperNIC e BlueField-4 DPU distribuiti su 18 tray di calcolo e 9 tray per gli switch NVLink. Un singolo rack da 19 pollici contiene circa 1,3 milioni di componenti individuali e circa 1.300 chip, con un peso di circa 4.000 libbre (circa 1.800 kg). NVIDIA dichiara un miglioramento fino a 4x nelle prestazioni di training e 10x nelle prestazioni di inference per watt rispetto alla generazione Blackwell.

Il sesta generazione di NVLink fornisce 3,6 terabyte al secondo di bandwidth per GPU e 260 terabyte al secondo attraverso l'intero rack. L'infrastruttura di interconnessione consiste in quattro cartucce modulari di cavi in rame contenenti 5.000 cavi che si estendono per oltre due miglia. Il tempo di installazione per singolo tray è sceso da quasi due ore a cinque minuti grazie all'eliminazione dei cavi tradizionali, sostituiti da un PCB midplane.

La CPU Vera e l'architettura ottimizzata per AI

⬆ Torna su

La CPU Vera rappresenta un design completamente nuovo, costruito specificamente per i pattern di accesso richiesti dall'inference AI. È l'unica CPU per data center al mondo a utilizzare memoria LPDDR5X, una scelta progettuale che garantisce prestazioni per watt eccezionali per i carichi di lavoro di inference, particolarmente per le operazioni di tool-calling che gli agenti AI eseguono costantemente.

Vera integra 88 core Arm personalizzati con architettura Olympus, memoria LPDDR5X con bandwidth fino a 1,2 terabyte al secondo e connettività NVLink C2C per la connessione diretta alle GPU Rubin. NVIDIA dichiara prestazioni single-thread 2x superiori rispetto al precedente chip Grace, con 1,5 TB di memoria. La filosofia progettuale è riassunta dalla dichiarazione di Jensen Huang: "l'AI non tollererà computer lenti".

Groq 3 LPX: l'inference specializzato

⬆ Torna su

Uno degli annunci più rilevanti del GTC 2026 riguarda l'integrazione dell'hardware Groq nella piattaforma NVIDIA. La LPU (Language Processing Unit) è progettata per la generazione di token a bassa latenza con costi operativi ridotti. Ogni Groq 3 LPU integra 500MB di SRAM on-chip, una quantità ridotta rispetto ai 288GB di HBM4 collegati a ogni GPU Rubin, ma con bandwidth di circa 150 TB/s, superiore ai 22 TB/s forniti dall'HBM.

Il chip è prodotto da Samsung, confermato per la prima volta da Jensen Huang, continuando un accordo di produzione originariamente stabilito con Groq prima dell'acquisizione. La produzione è già in corso con spedizioni previste per il terzo trimestre 2026. Il rack Groq LPX contiene 32 tray di calcolo con otto LPU ciascuno, connessi tramite uno spine diretto chip-to-chip composto da migliaia di connessioni in rame accoppiate. Più rack LPX possono operare come un singolo motore di inference.

Dynamo: l'orchestrazione dell'inference disaggregato

⬆ Torna su

Dynamo 1.0 è il sistema operativo open-source per l'inference progettato per distribuire risorse GPU e memoria attraverso il cluster. NVIDIA lo integra in framework come LangChain, SGLang e vLLM. Il sistema risolve il problema della separazione tra le fasi computazionali dei large language model: prefill (elaborazione del contesto di input) e decode (generazione dei token di output).

La soluzione di NVIDIA disaggrega la pipeline di inference: invia il prefill e il KV cache a Vera Rubin, mentre il decode feed-forward viene gestito da Groq. I due sistemi operano in parallelo su Ethernet con un protocollo speciale che riduce la latenza di circa la metà. Il risultato combinato è un miglioramento di 35x in tokens-per-watt rispetto alle configurazioni solo GPU, sbloccando i tier di pricing premium tra $45-$150 per milione di token descritti da Huang.

Rubin Ultra e l'architettura Kyber

⬆ Torna su

Per il 2027 NVIDIA pianifica l'aggiornamento con Rubin Ultra AI accelerators, che integreranno quattro compute chiplets e saranno equipaggiati con 1 TB di memoria HBM4E. Una singola GPU Rubin Ultra dichiara 100 petaflops nel formato dati FP4. La GPU consiste di quattro compute die invece di due, ciascuno superiore agli 800 millimetri quadrati, accoppiati con 16 stack di memoria HBM4E per una capacità totale di un terabyte.

L'architettura Kyber raddoppia il dominio NVLink per rack a 144 GPU. Invece di tray server orizzontali, il design utilizza layer verticali: hardware di calcolo con quattro GPU Rubin Ultra e due CPU Vera nella parte frontale, un midplane dietro di esso e un backplane NVLink nella parte posteriore. Otto rack Kyber insieme formano NVL1152 con 1.152 GPU. NVIDIA descrive Kyber come la base per l'architettura successiva, Feynman.

Feynman: l'architettura del 2028

⬆ Torna su

Per il 2028 NVIDIA ha preannunciato l'architettura Feynman, che introdurrà cambiamenti architetturali fondamentali. Feynman adotterà la tecnologia 3D die stacking, abilitando un nuovo modo di scalare le prestazioni. Utilizzerà memoria high-bandwidth custom, probabilmente una variante di C-HBM4E o un HBM5 completamente personalizzato, che consentirà di aumentare la capacità HBM oltre 1 TB per package GPU e incrementare la bandwidth di memoria.

La piattaforma Feynman sarà supportata dalla CPU Rosa, il processore di nuova generazione sviluppato internamente con focus sulle prestazioni single-thread. NVIDIA ha accorciato il ciclo di sviluppo CPU da quattro a due anni, allineandosi con sviluppatori di CPU leader come AMD e Intel. Jensen Huang ha dichiarato: "Feynman ha una nuova GPU, ovviamente; ha anche una nuova LPU LP40 [...] ora unendo la scala di NVIDIA e Groq costruendo insieme LP40, sarà incredibile."

La piattaforma includerà anche gli switch NVLink con co-packaged optics, che consentiranno interconnessioni ottiche utilizzando il protocollo NVLink. Le interconnessioni ottiche permetteranno di aumentare la scale-up world size delle soluzioni rack-scale a 576 package GPU (usando chassis Oberon) o addirittura 1.152 package GPU (usando chassis Kyber), rendendo i sistemi rack-scale di NVIDIA più competitivi rispetto a soluzioni alternative come AMD Instinct o acceleratori custom deployati dagli hyperscaler.

HBM4 e la memoria personalizzata

⬆ Torna su

Micron ha confermato l'inizio della produzione di massa di HBM4 36GB 12-high per la piattaforma Vera Rubin nel primo trimestre 2026, con speed pin superiori a 11 Gb/s e bandwidth superiore a 2,8 TB/s, un incremento 2,3x rispetto a HBM3E con miglioramento dell'efficienza energetica superiore al 20%. Micron ha anche iniziato a spedire campioni di HBM4 48GB 16-high ai clienti, con design più denso che incrementa la capacità del 33% rispetto alla versione 12-high.

Samsung ha ampliato il proprio ruolo da fornitore HBM4 per Vera Rubin a foundry per le LPU di NVIDIA. La produzione su processo 1,6nm di TSMC è prevista per le GPU Feynman. NVIDIA sta sviluppando un approccio più personalizzato alla memoria: invece dell'HBM di prossima generazione standard, Feynman utilizzerà HBM custom, segnando un approccio più su misura alla progettazione della memoria.

DLSS 5: neural rendering per RTX 50

⬆ Torna su

NVIDIA ha annunciato DLSS 5, tecnica di neural rendering prevista per l'autunno 2026 su RTX 50 series. A differenza delle versioni precedenti incentrate su upscaling e frame generation, DLSS 5 è un layer di illuminazione AI-powered che arricchisce le scene con luce, ombre e comportamento dei materiali fotorealistici. La tecnologia utilizza solo informazioni cromatiche e vettori di movimento dal game engine; la rete AI riconosce semanticamente diverse superfici (pelle, capelli, acqua, metallo) elaborando ciascuna in modo differente.

Digital Foundry ha testato la tecnologia in titoli tra cui Resident Evil Requiem, Hogwarts Legacy, Assassin's Creed Shadows, Oblivion Remastered e Starfield, descrivendo i risultati per ambienti, materiali e foliage come "sorprendenti". La demo tuttavia girava su due RTX 5090, con una GPU dedicata al gioco e la seconda esclusivamente a DLSS 5. NVIDIA conferma che la versione finale girerà su singola GPU, riconoscendo che rimane lavoro significativo di ottimizzazione e VRAM.

DSX: digital twin per AI factory

⬆ Torna su

NVIDIA DSX è una piattaforma digital twin per progettare e operare AI factory su scala gigawatt. La piattaforma Omniverse-based permette ai progettisti di data center di simulare condizioni fisiche, termiche, elettriche e di rete prima della costruzione. DSX MaxQ ottimizza dinamicamente il throughput dei token contro la potenza disponibile una volta che il data center è operativo.

Huang ha argomentato che un fattore 2 di miglioramento nell'output effettivo dei token è disponibile dentro i data center esistenti attraverso una migliore gestione di potenza e termica, senza aggiungere un singolo chip. Alla scala di data center gigawatt, questo rappresenta miliardi in ricavi recuperati.

OpenClaw e NemoClaw: il framework agentic

⬆ Torna su

OpenClaw è un framework open-source per agenti creato da Peter Steinberger che NVIDIA ora supporta pienamente. Huang lo ha descritto come il progetto open-source a crescita più rapida nella storia, superando l'adozione trentennale di Linux in settimane. I suoi primitivi mappano direttamente su un sistema operativo: gestione risorse, accesso strumenti, accesso file system, connettività LLM, scheduling e spawning di sub-agent.

NemoClaw è lo stack software production-grade costruito su OpenClaw che include sicurezza enterprise-grade, orchestrazione sandbox e guardrail per agenti autonomi. NVIDIA lo descrive come early alpha release. La combinazione di OpenClaw (layer OS) e NemoClaw (layer applicativo) permette a sviluppatori e aziende di costruire digital worker sicuri e operativi 24/7 in giorni invece che mesi.

Proiezioni economiche e domanda di infrastruttura

⬆ Torna su

NVIDIA ha rivisto le proiezioni di ricavi totali da infrastruttura AI a $1 trilione tra 2025 e 2027, il doppio della stima precedente. La domanda di compute per workload AI individuali è cresciuta circa 10.000 volte negli ultimi due anni con l'adozione di modelli reasoning, mentre l'utilizzo è cresciuto circa 100 volte. La domanda totale di computing AI è aumentata approssimativamente 1 milione di volte in due anni.

L'inference ha superato il training come workload dominante. I sistemi AI ora spendono la maggior parte dei cicli di compute generando token: reasoning, utilizzo di strumenti, scrittura ed esecuzione di codice. Huang ha presentato un mercato dell'inference a tier come SaaS: token gratuiti a un estremo, token di research premium a $150 per milione all'altro.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

L'accelerazione del ciclo di sviluppo GPU e l'integrazione delle Groq LPUs potrebbero ridefinire le gerarchie nell'infrastruttura per inference. La disaggregazione tra prefill e decode rappresenta un cambiamento architetturale che potrebbe diventare lo standard per i deployment enterprise.

  • Scenario 1: L'adozione della piattaforma Vera Rubin da parte di Microsoft Azure potrebbe spingere altri hyperscaler verso soluzioni rack-scale integrate, riducendo la domanda di configurazioni modulari tradizionali.
  • Scenario 2: La specializzazione dell'inference tramite Groq LPUs potrebbe marginalizzare le soluzioni GPU-only per carichi di lavoro ad alta latenza, creando una segmentazione più netta tra training e inference.
  • Scenario 3: La transizione verso HBM custom e 3D stacking con Feynman potrebbe consolidare la dipendenza da fornitori specifici di memoria, con implicazioni sulla supply chain del settore.

Cosa monitorare

⬆ Torna su
  • Tempi di adozione di Vera Rubin da parte di hyperscaler oltre Microsoft.
  • Evoluzione della partnership produttiva con Samsung per le LPUs.
  • Risposte competitive da AMD e acceleratori custom degli hyperscaler.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • nvidia
  • gpu
  • ai-infrastructure
  • hbm

Link utili

Apri l'articolo su DeafNews