NVIDIA presenta Groq 3 LPU: chip dedicato all'inferenza a bassa latenza

Al GTC 2026 NVIDIA annuncia il Groq 3 LPU, processore dedicato all'inferenza AI derivato dall'accordo da 20 miliardi con Groq, con 512 MB di SRAM e 150 TB/s di…

Contenuto

NVIDIA presenta Groq 3 LPU: chip dedicato all'inferenza a bassa latenza

Scopri anche

NVIDIA presenta Groq 3 LPU: chip dedicato all'inferenza a bassa latenza

NVIDIA presenta Groq 3 LPU: chip dedicato all'inferenza a bassa latenza

In questo articolo:

Alla conferenza GTC 2026 di San Jose, NVIDIA ha annunciato il Groq 3 Language Processing Unit (LPU), il primo chip dedicato all'inferenza AI emergente dall'accordo di licenza da 20 miliardi di dollari stipulato con la startup Groq alla vigilia di Natale 2025. Il processore SRAM-based si inserisce nella piattaforma Vera Rubin come co-processore dedicato per la fase di decode, con spedizioni previste nel terzo trimestre 2026 e produzione affidata a Samsung su processo a 4 nanometri.

L'annuncio rappresenta un cambio di paradigma nell'approccio di NVIDIA all'infrastruttura AI: l'azienda sta progettando esplicitamente il computing accelerato attorno all'inferenza come problema sistemico distinto, anziché tentare di gestire con la stessa architettura sia il training che l'inferenza con contesto lungo e interattivo.

La genesi dell'accordo con Groq

⬆ Torna su

L'accordo annunciato il 24 dicembre 2025 ha visto NVIDIA acquisire una licenza non esclusiva per la tecnologia LPU di Groq, insieme all'assunzione di personale senior inclusi il fondatore Jonathan Ross e il presidente Sunny Madra. Si tratta del più grande accordo in una serie di acquisizioni focalizzate sull'inferenza che hanno attraversato l'industria dei semiconduttori nel 2025.

La tempistica dell'accordo — alla vigilia di Natale — ha sollevato interrogativi sulla fretta di NVIDIA nel completare la transazione. Durante la chiamata sui risultati del Q4 FY2026, Jensen Huang aveva anticipato che le risposte sarebbero arrivate al GTC. Le risposte riguardano la necessità di affrontare la latenza nell'inferenza agentic: sistemi multi-agente che comunicano continuamente tra loro richiedono responsività che le GPU tradizionali non garantiscono.

Secondo Ian Buck, vicepresidente di hyperscale e high-performance computing di NVIDIA, il supporto per throughputs fino a 1.500 token al secondo per le comunicazioni agentic è diventato necessario perché, mentre 100 token al secondo possono sembrare ragionevoli per gli esseri umani, tali velocità risultano eccessivamente lente per i sistemi agentic.

Il problema della latenza nelle GPU

⬆ Torna su

Le GPU NVIDIA sono processori ad alto throughput progettati per elaborare grandi quantità di dati in parallelo. Questa ottimizzazione implica un trade-off: le GPU non sono particolarmente veloci in termini di latenza. Per massimizzare il throughput, si utilizzano tecniche per nascondere la latenza e alternare il contesto tra thread.

Le qualità che rendono un processore efficiente per il computing a bassa latenza — come un grande numero di registri, cache abbondanti e unità di esecuzione per il parallelismo a livello di istruzione — sono caratteristiche che riducono lo spazio disponibile per le ALU (Arithmetic Logic Units) necessarie per il throughput elevato.

Nel 2025 e 2026, il trade-off throughput/latenza è diventato problematico per NVIDIA. I punti operativi ottimali di una GPU non offrono latenze sufficientemente basse per le velocità di token per utente richieste dall'AI agentic. Quando gli esseri umani vengono rimossi dai workflow ad alto valore, la latenza diventa un differenziatore chiave.

La separazione tra prefill e decode

⬆ Torna su

L'inferenza LLM comprende due fasi fondamentali: prefill e decode. Il prefill è la fase in cui viene elaborato il prompt, raccogliendo dati da diverse fonti per creare contesto; è un processo altamente parallelizzato e compute-bound, per cui le GPU sono ottimali. Il decode (o ragionamento autoregressivo) è la fase di generazione dei token di output; è un processo seriale che richiede elevata bandwidth di memoria.

La soluzione di NVIDIA prevede l'uso dei Rubin GPU per la fase di prefill e le parti compute-intensive del decode, mentre i Groq LPU gestiscono le parti latency-sensitive del decode come l'esecuzione delle feed-forward networks (FFN). Questa architettura disaggregata sfrutta i punti di forza di ciascun tipo di chip.

La piattaforma di orchestrazione Dynamo di NVIDIA gestisce la distribuzione dei workload tra hardware eterogeneo, bilanciando in base alla dimensione del batch e ai requisiti di parallelismo.

Architettura SRAM-based e design deterministico

⬆ Torna su

L'LPU Groq utilizza un approccio che alterna unità di processing e unità di memoria sul chip. Invece di affidarsi alla High Bandwidth Memory (HBM) posizionata accanto alle GPU, si basa su memoria SRAM integrata direttamente nel processore. Il chip LP30 contiene 512 MB di SRAM on-die con bandwidth di 150 TB/s — sette volte superiore ai 22 TB/s del Rubin GPU con la sua HBM da 288 GB.

La progettazione semplifica il flusso dei dati attraverso il chip, permettendo un'esecuzione lineare. Come spiegato da Mark Heaps, ex chief technology evangelist di Groq e ora direttore del developer marketing di NVIDIA, i dati fluiscano direttamente attraverso la SRAM in un ordine lineare, senza la necessità di inviare comandi istruzione fuori dal chip per poi ritornare.

L'altra caratteristica distintiva è il determinismo. Invece dello scheduling hardware tipico di CPU e GPU, lo scheduling delle istruzioni viene gestito interamente dal compilatore prima dell'esecuzione. Questo scheduling statico elimina la necessità di indovinare quando un dato sarà disponibile o quando un'istruzione sarà completata: tutto esegue secondo una serie orchestrata di eventi predefiniti.

Specifiche tecniche del Groq 3 LPU e del rack LPX

⬆ Torna su

Il chip LP30 alla base del Groq 3 LPU offre 512 MB di SRAM per die e 1.23 PFLOPS di capacità compute in FP8. Ogni rack Groq 3 LPX contiene 256 LPU per un totale di 128 GB di SRAM e 40 PB/s di bandwidth aggregato. Samsung ha aumentato la produzione da circa 9.000 wafer a circa 15.000 wafer passando dai campioni alla produzione commerciale.

Il rack LPX si integra con Vera Rubin NVL72 tramite collegamenti ad alta velocità. NVIDIA dichiara che la combinazione LPX + Vera Rubin NVL72 garantisce throughput fino a 35 volte superiore per megawatt rispetto a Blackwell NVL72 da solo per modelli trillion-parameter, con un target di prezzo di $45 per milione di token.

Ogni tray compute contiene 8 Groq 3 LPU e un Vera Rubin che accoppia Rubin GPU con Vera CPU. NVIDIA ha dichiarato che il prodotto è già in volume production.

Integrazione nella piattaforma Vera Rubin

⬆ Torna su

Il Vera Rubin POD integra cinque sistemi rack-scale purpose-built costruiti sulla architettura MGX di terza generazione: NVL72 (compute engine con supporto scaling laws e mixture-of-experts), Groq 3 LPX (256 LPU per rack per inferenza low-latency), Vera CPU (256 CPU per rack per reinforcement learning e sandboxing), BlueField-4 STX (storage AI-native con CMX per KV cache), e Spectrum-6 SPX (networking basato su silicon photonics).

Il POD complessivo comprende 40 rack, 1.2 quadrilioni di transistor, quasi 20.000 die NVIDIA, 1.152 GPU Rubin, 60 exaflops di capacità compute e 10 PB/s di bandwidth scale-up totale. La co-progettazione estrema attraverso sette tipi di chip (compute, networking, storage) abilita il supporto per paradigmi AI agentic moderni inclusi mixture-of-experts, reinforcement learning e large context memory.

Il rack MGX NVL72 integra 72 Rubin GPU e 36 Vera CPU connessi tramite NVLink copper spine, funzionando come un'unica GPU gigante. NVIDIA dichiara performance di training fino a 4x migliori e performance di inference fino a 10x migliori per watt rispetto a Blackwell, con un decimo del costo per token.

La cancellazione di Rubin CPX

⬆ Torna su

Una assenza significativa al GTC 2026 è stata il Rubin CPX, acceleratore di inferenza basato su GDDR7 annunciato a settembre 2025 come parte della piattaforma Vera Rubin. Non è apparso in alcuna slide del keynote né ha ricevuto tempo sul palco. Secondo quanto riportato, il CPX è stato rimosso dalla roadmap NVIDIA e sostituito nella gerarchia della piattaforma dal Groq 3 LPX.

Il CPX era progettato per usare memoria GDDR7 più economica e disponibile per accelerare la fase di contesto dell'inferenza a consumi inferiori. Tuttavia, l'LPU Groq offre bandwidth superiore senza richiedere grandi quantità di memoria esterna — ideale in un mercato dove l'offerta di HBM rimane vincolata e la produzione di GDDR7 è ancora in fase di scaling.

Un'ipotesi tecnica suggerisce che la difficoltà nel procurarsi GDDR7 possa aver influito sulla decisione: suddividere i tipi di memoria per gli acceleratori AI potrebbe creare carenze o eccedenze di GDDR7 e impattare il business gaming di NVIDIA. Mantenere un solo tipo di memoria (HBM), seppur più costoso, offre maggiore flessibilità.

Il contesto competitivo

⬆ Torna su

L'accordo NVIDIA-Groq si inserisce in un'ondata di consolidamento. Nel giugno 2025 AMD ha acquisito il team di ingegneria di Untether AI; a settembre NVIDIA ha pagato oltre 900 milioni di dollari per il team e gli IP della startup di networking Enfabrica; a ottobre Meta ha acquisito la startup di chip custom Rivos. Intel ha tentato di acquisire SambaNova per 1.6 miliardi, ma le trattative sono fallite con un investimento da 350 milioni di dollari e una partnership pluriennale.

Gli hyperscaler stanno sviluppando hardware proprietario: Meta ha annunciato quattro generazioni successive di chip MTIA sviluppati con Broadcom; Google ha presentato il TPU v7 Ironwood con 192 GB di HBM per die; AWS continua a sviluppare Trainium e Inferentia, sebbene i dati interni del 2024 mostrino Trainium allo 0.5% dell'utilizzo GPU NVIDIA all'interno di AWS e Inferentia al 2.7%.

Secondo un sondaggio Futurum Group del novembre 2025, gli acceleratori XPU dovrebbero guidare la crescita della spesa per compute nei datacenter al 22% nel 2026, superando le GPU al 19% e le CPU al 14%. TrendForce proietta una crescita del 44.6% per le spedizioni di ASIC custom dai provider cloud nel 2026, contro il 16.1% delle GPU.

Considerazioni per le enterprise

⬆ Torna su

Analisti del settore evidenziano che LPX non è una tecnologia enterprise generica ma una risposta infrastrutturale specializzata alle richieste di workload di inferenza premium, latency-sensitive e memory-intensive. La prima domanda che i leader IT dovrebbero porsi è se necessitano effettivamente di questa classe di infrastruttura per i propri workload.

La maggior parte delle enterprise non richiede inferenza trillion-parameter e contesto million-token come modello operativo predefinito. Molte organizzazioni faticano ancora a governare deployment di AI generativa su scala ridotta, senza considerare i sistemi agentic su scala industriale.

La memoria va considerata un vincolo strategico: il contesto lungo e la crescita del KV-cache non scompaiono. Sebbene la risposta di NVIDIA sia il tiering, l'esternalizzazione della memoria di contesto e l'orchestrazione tra rack, queste decisioni architetturali aumentano la complessità.

Gli aspetti di portabilità software e flessibilità dell'ecosistema rimangono essenziali. NVIDIA sta cercando di controllare non solo il layer del silicio, ma anche il design di sistema, l'orchestrazione e lo storage tiering, dominando al contempo la narrazione economica attorno ai token premium.

Disponibilità

⬆ Torna su

AWS ha annunciato al GTC che deployà i Groq 3 LPU insieme a oltre un milione di GPU NVIDIA come parte di una partnership estesa. La produzione è già avviata con Samsung sul processo a 4nm. Un futuro LP35 aggiungerà supporto NVFP4 allineandosi alla generazione Rubin Ultra, mentre un LP40 è pianificato per il ciclo architetturale Feynman successivo.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La scelta di integrare un processore SRAM-based nella piattaforma Vera Rubin segnala una strategia di specializzazione dell'hardware per fasi distinte del workload. La separazione tra prefill e decode potrebbe ridefinire come vengono progettati i datacenter per l'inferenza.

  • Scenario 1: L'adozione dei sistemi agentic aumenta significativamente, rendendo la bassa latenza un requisito infrastrutturale e non un'ottimizzazione opzionale.
  • Scenario 2: I competitor sviluppano architetture simili disaggregate, accelerando una transizione già iniziata verso design purpose-built per inferenza.
  • Scenario 3: Il prezzo target di 45 dollari per milione di token potrebbe comprimersi ulteriormente se la produzione Samsung scale-up come previsto.

Cosa monitorare

⬆ Torna su
  • Le tempistiche di spedizione nel terzo trimestre 2026 rispetto agli annunci.
  • L'effettiva adoption da parte dei hyperscaler e dei provider cloud.
  • Le contromisure dei competitor nell'ambito dell'inferenza low-latency.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • nvidia
  • inference
  • gpu
  • ai-infrastructure

Link utili

Apri l'articolo su DeafNews