Nvidia Groq 3 LPU: architettura eterogenea per l'inferenza AI a bassa latenza
Al GTC 2026 Nvidia presenta Groq 3 LPU, chip specializzato per inferenza AI sviluppato dall'accordo da 20 miliardi di dollari con Groq, con 150 TB/s di banda m…
Contenuto

Scopri anche
- NVIDIA GTC 2026: La roadmap Vera Rubin, Feynman e l'integrazione di Groq LPUs ridefiniscono l'infrastruttura AI
- NVIDIA prevede ricavi da 1 trilione di dollari entro il 2027
- Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM
- Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani
- LinkedIn rinnova l'algoritmo del feed con modelli LLM e infrastruttura GPU
- Meta svela la roadmap di quattro nuovi chip MTIA: infrastruttura AI interna entro il 2027
- NVIDIA registra ricavi record per 39,3 miliardi nel Q4 FY2025: Blackwell traina la rivoluzione dell'AI agentic
- Qwen 3.5: Alibaba lancia modelli open-source che competono con GPT e Gemini
- Toyota richiama 141.286 Prius: le porte posteriori possono aprirsi durante la guida
- GreenBoost: il driver open source che estende la VRAM delle GPU NVIDIA con RAM di sistema e NVMe
- Tecniche di addestramento e ottimizzazione degli LLM: dati, distillazione e quantizzazione
- Agenti AI e società simulate: il 2026 come anno di svolta tra memoria, autonomia e nuove interazioni sociali
- Nvidia GTC 2026: Rubin Ultra, architettura Feynman e la svolta verso l'AI Agentic
- NVIDIA GTC 2026: Keynote di Jensen Huang e sviluppi sull'infrastruttura AI
- Intel e SambaNova stringono partnership strategica per l'inferenza AI: presentato il chip SN50
- Samsung Galaxy AI: l'ecosistema intelligente tra smartphone, wearable e assistente conversazionale
- Samsung Galaxy S26: l'intelligenza artificiale agentica diventa proattiva
- Nvidia domina il mercato GPU per data center mentre AMD guadagna terreno con accordi strategici e nuove sfide geopolitiche
- Ottimizzazione dell'inferenza AI: vLLM, PagedAttention e nuovi paradigmi per i Large Language Models
- Agenti AI: architetture emergenti, società simulate e la ridefinizione del software
Nvidia Groq 3 LPU: architettura eterogenea per l'inferenza AI a bassa latenza
- Specifiche tecniche del Groq 3 LPU
- Il sistema Groq 3 LPX
- Integrazione con Vera Rubin NVL72
- Il contesto dei sistemi agentic
- Confronto con GPU Rubin e trade-off architetturali
- Inference disaggregation e speculative decoding
- Posizionamento competitivo
- Indicazioni economiche
- Implicazioni e scenari
- Cosa monitorare
- Fonti
Al GTC 2026 di San Jose, Jensen Huang ha annunciato il Groq 3 LPU (Language Processing Unit), primo chip Nvidia progettato specificamente per l'inferenza AI. Il processore incorpora la tecnologia licenziata da Groq nel dicembre 2025 per 20 miliardi di dollari, con Jonathan Ross e Sunny Madra entrati a far parte di Nvidia. Il nuovo chip si affianca alla piattaforma Vera Rubin per gestire carichi di lavoro con modelli da bilioni di parametri e contesti fino a milioni di token.
Specifiche tecniche del Groq 3 LPU
⬆ Torna suIl Groq 3 LPU si differenzia dalle GPU tradizionali per un approccio architetturale centrato sulla memoria SRAM on-chip. Ogni LPU integra 500 MB di SRAM con banda di 150 TB/s, significativamente superiore ai 22 TB/s delle GPU Rubin con HBM4. La banda di scale-up raggiunge 2,5 TB/s per LPU attraverso 96 link chip-to-chip a 112 Gbps ciascuno. La capacità di calcolo dichiarata è 1,2 petaFLOPS in FP8.
La filosofia progettuale elimina le cache gestite dall'hardware in favore di un modello deterministico: il compilatore posiziona esplicitamente i dati di lavoro attivi (pesi, attivazioni, stato KV) nella memoria SRAM. Mark Heaps, direttore del developer marketing presso Nvidia, ha descritto il funzionamento: i dati fluiscono direttamente attraverso la SRAM secondo un ordine lineare, senza le latenze introdotte dall'accesso alla memoria off-chip tipico delle GPU multi-core.
Il sistema Groq 3 LPX
⬆ Torna suNvidia ha progettato il rack Groq 3 LPX per integrare gli LPU nell'ecosistema Vera Rubin. Ogni rack contiene 256 LPU interconnessi, per un totale di 128 GB di SRAM distribuita. La banda aggregata di scale-up raggiunge 640 TB/s attraverso link diretti tra chip. Il rack ospita 32 tray da 1U a raffreddamento liquido, ciascuno con 8 LPU, un processore host e logica di espansione fabric in design senza cavi.
La documentazione specifica che LPX si integra con l'architettura rack MGX ETL di Nvidia, consentendo di distribuire un percorso dedicato per inferenza a bassa latenza alongside Vera Rubin NVL72. Il sistema combina 32 tray connessi tramite spine C2C per comunicazioni intra-rack e inter-rack scalabili.
Integrazione con Vera Rubin NVL72
⬆ Torna suLa piattaforma Vera Rubin NVL72 combina GPU Rubin con CPU Vera in configurazione rack-scale. Il design eterogeneo affida alle GPU il prefill e la gestione del contesto KV, mentre gli LPU accelerano le componenti latenza-sensitiva del decode, ovvero le reti feed-forward e gli esperti MoE. Nvidia definisce questa separazione "Attention-FFN Disaggregation" (AFD): le GPU elaborano l'attenzione sull'intero contesto accumulato, gli LPU eseguono i layer FFN con latenza ridotta.
Ian Buck, VP hyperscale e HPC presso Nvidia, ha dichiarato che la combinazione Vera Rubin + LPX garantisce "35 volte throughput superiore per megawatt e 10 volte maggiore opportunità di ricavo per modelli da bilioni di parametri". I numeri si riferiscono a contesti da milioni di token e throughput fino a 1500 token al secondo per comunicazioni agentic.
Il contesto dei sistemi agentic
⬆ Torna suLa documentazione tecnica evidenzia che i sistemi agentic consumano fino a 15 volte più token delle applicazioni AI tradizionali. Ian Buck ha motivato la necessità di latenze estreme: mentre 100 token al secondo sono sufficienti per l'interazione umana, risultano inaccettabili per agenti che comunicano continuamente tra loro. La velocità richiesta per questi carichi si avvicina ai 1000-1500 token al secondo per utente.
L'architettura LPU enfatizza l'esecuzione deterministica: il compilatore programma esplicitamente calcolo, movimento dati e sincronizzazione, eliminando gli scheduler hardware dinamici. Il protocollo plesiosincrono a livello hardware compensa il deriva dei clock e allinea centinaia di LPU come sistema coordinato singolo.
Confronto con GPU Rubin e trade-off architetturali
⬆ Torna suIl confronto diretto tra Rubin GPU e Groq 3 LPU illustra la specializzazione. La GPU Rubin offre 288 GB di HBM e 50 petaFLOPS di calcolo 4-bit, banda memoria 22 TB/s. L'LPU ha 500 MB di SRAM (circa 1/500 della capacità), 1,2 petaFLOPS in 8-bit, ma banda 150 TB/s, sette volte superiore. Buck ha riassunto: l'LPU è ottimizzato per la generazione token a latenza estrema, ma richiede molti chip per raggiungere quelle prestazioni.
Per modelli da 1 trilione di parametri in precisione 4-bit servono almeno 512 GB di memoria, circa 1000 LPU. Nvidia prevede che sistemi multi-rack LPX possano supportare questi modelli. La strategia eterogenea permette di mantenere throughput elevato per prefill e attenzione sulla GPU, dove contano capacità e parallelismo, riservando all'LPU i path latenza-sensitiva.
Inference disaggregation e speculative decoding
⬆ Torna suNvidia ha esteso il concetto di inference disaggregation introducendo la separazione attention-FFN nel decode. Il software Dynamo orchestra il routing: prefill verso worker GPU, loop AFD dove GPU gestiscono attenzione e LPU eseguono FFN/MoE. Il sistema mantiene latenza di coda stabile anche con traffico variabile e bursty.
LPX supporta anche lo speculative decoding con LPU come engine per generare draft token. Il modello draft più piccolo produce candidati verificati in parallelo dalla GPU Rubin. L'elevata banda SRAM dell'LPU accelera la generazione draft, mentre la GPU processa verifica, prefill e attenzione. La separazione permette di combinare processori eterogenei ottimizzando ciascuna fase.
Posizionamento competitivo
⬆ Torna suL'annuncio segue di pochi mesi l'accordo Nvidia-Groq, evidenziando l'urgenza del mercato inference. La settimana precedente, AWS ha annunciato collaborazione con Cerebras per piattaforma combinata Trainium 3 + WSE-3, anch'essa basata su separazione prefill/decode con SRAM abbondante sul chip Cerebras. Sid Sheth, CEO di d-Matrix, ha commentato che l'annuncio Nvidia "valida l'importanza delle architetture SRAM per inferenza su larga scala".
Buck ha confermato che LPU non supporta CUDA nativamente: vengono usati come acceleratori per la piattaforma Vera NVL72. L'integrazione richiede orchestrazione attraverso Dynamo e routing eterogeneo. I sistemi Groq-based LPX sono previsti per la fine dell'anno, con focus iniziale su model builder e service provider che necessitano di servire modelli da oltre un trilione di parametri con alte rate di token.
Indicazioni economiche
⬆ Torna suSecondo The Register, Nvidia ipotizza che provider di inferenza possano caricare fino a 45 dollari per milione di token generati, rispetto ai circa 15 dollari di OpenAI per GPT-5.4 via API. La logica è che token premium con latenza ultra-bassa e contesto esteso giustificano prezzi superiori per workload agentic e applicazioni interattive ad alto valore.
Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.
Implicazioni e scenari
⬆ Torna suLa specializzazione hardware per l'inferenza segna un punto di svolta nell'architettura dei data center. La separazione tra prefill e decode su processori distinti potrebbe ridefinire l'efficienza energetica per carichi agentic ad alto volume di token.
- Scenario 1: L'approccio eterogeneo GPU+LPU potrebbe diventare riferimento per chi opera sistemi da trilioni di parametri, dove latenza e throughput determinano la redditività del servizio.
- Scenario 2: La competizione inference si intensificherà tra soluzioni SRAM-centriche, con Cerebras e d-Matrix che vantano approcci simili già operativi.
- Scenario 3: I token premium a bassa latenza potrebbero giustificare margini superiori per provider che investono in architetture specializzate, rispetto alle API general-purpose.
Cosa monitorare
⬆ Torna su- Tempi di disponibilità effettiva dei sistemi LPX e adozione iniziale da parte di service provider.
- Risposta competitiva di AWS, Cerebras e altri player nel segmento inference accelerato.
- Evoluzione dei prezzi di mercato per token a bassa latenza e contesto esteso.
Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.
Fonti
⬆ Torna su- https://www.digitimes.com/news/a20260318PD208/nvidia-groq-2026-ai-chip-gtc.html
- https://nationaltoday.com/us/ca/san-jose/news/2026/03/17/nvidia-debuts-groq-3-language-processing-unit-for-multiagent-workloads/
- https://www.techzine.eu/news/infrastructure/139653/nvidias-groq-3-lpu-targets-agentic-ai-inference-at-gtc-2026/
- https://spectrum.ieee.org/nvidia-groq-3
- https://developer.nvidia.com/blog/inside-nvidia-groq-3-lpx-the-low-latency-inference-accelerator-for-the-nvidia-vera-rubin-platform/
- https://www.theregister.com/2026/03/16/nvidia_lpx_groq_3/
- https://www.nvidia.com/en-us/data-center/lpx/
In breve
- nvidia
- inference
- agentic
- gpu