Nvidia Groq 3 LPU: architettura eterogenea per l'inferenza AI a bassa latenza

Al GTC 2026 Nvidia presenta Groq 3 LPU, chip specializzato per inferenza AI sviluppato dall'accordo da 20 miliardi di dollari con Groq, con 150 TB/s di banda m…

Contenuto

Nvidia Groq 3 LPU: architettura eterogenea per l'inferenza AI a bassa latenza

Scopri anche

Nvidia Groq 3 LPU: architettura eterogenea per l'inferenza AI a bassa latenza

Nvidia Groq 3 LPU: architettura eterogenea per l'inferenza AI a bassa latenza

In questo articolo:

Al GTC 2026 di San Jose, Jensen Huang ha annunciato il Groq 3 LPU (Language Processing Unit), primo chip Nvidia progettato specificamente per l'inferenza AI. Il processore incorpora la tecnologia licenziata da Groq nel dicembre 2025 per 20 miliardi di dollari, con Jonathan Ross e Sunny Madra entrati a far parte di Nvidia. Il nuovo chip si affianca alla piattaforma Vera Rubin per gestire carichi di lavoro con modelli da bilioni di parametri e contesti fino a milioni di token.

Specifiche tecniche del Groq 3 LPU

⬆ Torna su

Il Groq 3 LPU si differenzia dalle GPU tradizionali per un approccio architetturale centrato sulla memoria SRAM on-chip. Ogni LPU integra 500 MB di SRAM con banda di 150 TB/s, significativamente superiore ai 22 TB/s delle GPU Rubin con HBM4. La banda di scale-up raggiunge 2,5 TB/s per LPU attraverso 96 link chip-to-chip a 112 Gbps ciascuno. La capacità di calcolo dichiarata è 1,2 petaFLOPS in FP8.

La filosofia progettuale elimina le cache gestite dall'hardware in favore di un modello deterministico: il compilatore posiziona esplicitamente i dati di lavoro attivi (pesi, attivazioni, stato KV) nella memoria SRAM. Mark Heaps, direttore del developer marketing presso Nvidia, ha descritto il funzionamento: i dati fluiscono direttamente attraverso la SRAM secondo un ordine lineare, senza le latenze introdotte dall'accesso alla memoria off-chip tipico delle GPU multi-core.

Il sistema Groq 3 LPX

⬆ Torna su

Nvidia ha progettato il rack Groq 3 LPX per integrare gli LPU nell'ecosistema Vera Rubin. Ogni rack contiene 256 LPU interconnessi, per un totale di 128 GB di SRAM distribuita. La banda aggregata di scale-up raggiunge 640 TB/s attraverso link diretti tra chip. Il rack ospita 32 tray da 1U a raffreddamento liquido, ciascuno con 8 LPU, un processore host e logica di espansione fabric in design senza cavi.

La documentazione specifica che LPX si integra con l'architettura rack MGX ETL di Nvidia, consentendo di distribuire un percorso dedicato per inferenza a bassa latenza alongside Vera Rubin NVL72. Il sistema combina 32 tray connessi tramite spine C2C per comunicazioni intra-rack e inter-rack scalabili.

Integrazione con Vera Rubin NVL72

⬆ Torna su

La piattaforma Vera Rubin NVL72 combina GPU Rubin con CPU Vera in configurazione rack-scale. Il design eterogeneo affida alle GPU il prefill e la gestione del contesto KV, mentre gli LPU accelerano le componenti latenza-sensitiva del decode, ovvero le reti feed-forward e gli esperti MoE. Nvidia definisce questa separazione "Attention-FFN Disaggregation" (AFD): le GPU elaborano l'attenzione sull'intero contesto accumulato, gli LPU eseguono i layer FFN con latenza ridotta.

Ian Buck, VP hyperscale e HPC presso Nvidia, ha dichiarato che la combinazione Vera Rubin + LPX garantisce "35 volte throughput superiore per megawatt e 10 volte maggiore opportunità di ricavo per modelli da bilioni di parametri". I numeri si riferiscono a contesti da milioni di token e throughput fino a 1500 token al secondo per comunicazioni agentic.

Il contesto dei sistemi agentic

⬆ Torna su

La documentazione tecnica evidenzia che i sistemi agentic consumano fino a 15 volte più token delle applicazioni AI tradizionali. Ian Buck ha motivato la necessità di latenze estreme: mentre 100 token al secondo sono sufficienti per l'interazione umana, risultano inaccettabili per agenti che comunicano continuamente tra loro. La velocità richiesta per questi carichi si avvicina ai 1000-1500 token al secondo per utente.

L'architettura LPU enfatizza l'esecuzione deterministica: il compilatore programma esplicitamente calcolo, movimento dati e sincronizzazione, eliminando gli scheduler hardware dinamici. Il protocollo plesiosincrono a livello hardware compensa il deriva dei clock e allinea centinaia di LPU come sistema coordinato singolo.

Confronto con GPU Rubin e trade-off architetturali

⬆ Torna su

Il confronto diretto tra Rubin GPU e Groq 3 LPU illustra la specializzazione. La GPU Rubin offre 288 GB di HBM e 50 petaFLOPS di calcolo 4-bit, banda memoria 22 TB/s. L'LPU ha 500 MB di SRAM (circa 1/500 della capacità), 1,2 petaFLOPS in 8-bit, ma banda 150 TB/s, sette volte superiore. Buck ha riassunto: l'LPU è ottimizzato per la generazione token a latenza estrema, ma richiede molti chip per raggiungere quelle prestazioni.

Per modelli da 1 trilione di parametri in precisione 4-bit servono almeno 512 GB di memoria, circa 1000 LPU. Nvidia prevede che sistemi multi-rack LPX possano supportare questi modelli. La strategia eterogenea permette di mantenere throughput elevato per prefill e attenzione sulla GPU, dove contano capacità e parallelismo, riservando all'LPU i path latenza-sensitiva.

Inference disaggregation e speculative decoding

⬆ Torna su

Nvidia ha esteso il concetto di inference disaggregation introducendo la separazione attention-FFN nel decode. Il software Dynamo orchestra il routing: prefill verso worker GPU, loop AFD dove GPU gestiscono attenzione e LPU eseguono FFN/MoE. Il sistema mantiene latenza di coda stabile anche con traffico variabile e bursty.

LPX supporta anche lo speculative decoding con LPU come engine per generare draft token. Il modello draft più piccolo produce candidati verificati in parallelo dalla GPU Rubin. L'elevata banda SRAM dell'LPU accelera la generazione draft, mentre la GPU processa verifica, prefill e attenzione. La separazione permette di combinare processori eterogenei ottimizzando ciascuna fase.

Posizionamento competitivo

⬆ Torna su

L'annuncio segue di pochi mesi l'accordo Nvidia-Groq, evidenziando l'urgenza del mercato inference. La settimana precedente, AWS ha annunciato collaborazione con Cerebras per piattaforma combinata Trainium 3 + WSE-3, anch'essa basata su separazione prefill/decode con SRAM abbondante sul chip Cerebras. Sid Sheth, CEO di d-Matrix, ha commentato che l'annuncio Nvidia "valida l'importanza delle architetture SRAM per inferenza su larga scala".

Buck ha confermato che LPU non supporta CUDA nativamente: vengono usati come acceleratori per la piattaforma Vera NVL72. L'integrazione richiede orchestrazione attraverso Dynamo e routing eterogeneo. I sistemi Groq-based LPX sono previsti per la fine dell'anno, con focus iniziale su model builder e service provider che necessitano di servire modelli da oltre un trilione di parametri con alte rate di token.

Indicazioni economiche

⬆ Torna su

Secondo The Register, Nvidia ipotizza che provider di inferenza possano caricare fino a 45 dollari per milione di token generati, rispetto ai circa 15 dollari di OpenAI per GPT-5.4 via API. La logica è che token premium con latenza ultra-bassa e contesto esteso giustificano prezzi superiori per workload agentic e applicazioni interattive ad alto valore.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La specializzazione hardware per l'inferenza segna un punto di svolta nell'architettura dei data center. La separazione tra prefill e decode su processori distinti potrebbe ridefinire l'efficienza energetica per carichi agentic ad alto volume di token.

  • Scenario 1: L'approccio eterogeneo GPU+LPU potrebbe diventare riferimento per chi opera sistemi da trilioni di parametri, dove latenza e throughput determinano la redditività del servizio.
  • Scenario 2: La competizione inference si intensificherà tra soluzioni SRAM-centriche, con Cerebras e d-Matrix che vantano approcci simili già operativi.
  • Scenario 3: I token premium a bassa latenza potrebbero giustificare margini superiori per provider che investono in architetture specializzate, rispetto alle API general-purpose.

Cosa monitorare

⬆ Torna su
  • Tempi di disponibilità effettiva dei sistemi LPX e adozione iniziale da parte di service provider.
  • Risposta competitiva di AWS, Cerebras e altri player nel segmento inference accelerato.
  • Evoluzione dei prezzi di mercato per token a bassa latenza e contesto esteso.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • nvidia
  • inference
  • agentic
  • gpu

Link utili

Apri l'articolo su DeafNews