Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM
Alla conferenza GTC 2026, Nvidia ha annunciato il Groq 3 LPU, un processore specifico per l'inferenza AI che utilizza SRAM on-chip per raggiungere 150 TB/s di…
Contenuto

Scopri anche
- GreenBoost: il driver open source che estende la VRAM delle GPU NVIDIA con RAM di sistema e NVMe
- NVIDIA GTC 2026: Keynote di Jensen Huang e sviluppi sull'infrastruttura AI
- NVIDIA registra ricavi record per 39,3 miliardi nel Q4 FY2025: Blackwell traina la rivoluzione dell'AI agentic
- Meta svela la roadmap di quattro nuovi chip MTIA: infrastruttura AI interna entro il 2027
- Nvidia domina il mercato GPU per data center mentre AMD guadagna terreno con accordi strategici e nuove sfide geopolitiche
- Tecniche di addestramento e ottimizzazione degli LLM: dati, distillazione e quantizzazione
- Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani
- Toyota richiama 141.286 Prius: le porte posteriori possono aprirsi durante la guida
- Nvidia verso i 20 trilioni di dollari: la strategia di espansione nel mercato dell'intelligenza artificiale
- Intel e SambaNova stringono partnership strategica per l'inferenza AI: presentato il chip SN50
- Qwen 3.5: Alibaba lancia modelli open-source che competono con GPT e Gemini
- Nvidia GTC 2026: Rubin Ultra, architettura Feynman e la svolta verso l'AI Agentic
- L'ascesa delle CPU nei data center AI: il nuovo ruolo dell'infrastruttura di calcolo
- Ottimizzazione dell'inferenza AI: vLLM, PagedAttention e nuovi paradigmi per i Large Language Models
- Agenti AI e società simulate: il 2026 come anno di svolta tra memoria, autonomia e nuove interazioni sociali
- Samsung Galaxy S26: l'intelligenza artificiale agentica diventa proattiva
- CoWoS e HBM: i colli di bottiglia dell'infrastruttura AI nel 2026
- NVIDIA: investitori istituzionali aumentano posizioni mentre gli insider vendono
- Confronto prestazionale tra GPU AMD e NVIDIA nell'inferenza AI: benchmark e analisi tecnica
- ChatGPT e l'evoluzione dei modelli di linguaggio: funzionamento, limiti e competitizione
Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM
- La distinzione tra training e inferenza
- Architettura SRAM e flusso dati lineare
- Specifiche tecniche: Groq 3 LPU vs Rubin GPU
- Il sistema LPX e la disaggregazione dell'inferenza
- Produzione e disponibilità
- Il contesto competitivo
- Considerazioni sul supporto software
- Implicazioni e scenari
- Cosa monitorare
- Fonti
Durante la conferenza GTC 2026 a San Jose, il CEO di Nvidia Jensen Huang ha annunciato il Groq 3 LPU, un chip progettato specificamente per gestire l'inferenza AI. Il processore integra proprietà intellettuale che Nvidia ha ottenuto in licenza dalla startup Groq per 20 miliardi di dollari lo scorso 24 dicembre. L'LPU funzionerà in concerto con la GPU Rubin per accelerare i carichi di lavoro AI.
La distinzione tra training e inferenza
⬆ Torna suSecondo Huang, l'AI ha raggiunto un punto di svolta: ora deve pensare e agire, e per farlo deve eseguire inferenza. Training e inferenza hanno requisiti computazionali distinti. Mentre il training può essere eseguito su enormi quantità di dati simultaneamente e richiedere settimane, l'inferenza deve essere eseguita sulla query di un utente nel momento in cui arriva. A differenza del training, l'inferenza non richiede l'esecuzione costosa della retropropagazione. Il requisito principale per l'inferenza è la bassa latenza: gli utenti si aspettano risposte rapide dai chatbot e, per i modelli di ragionamento, l'inferenza viene eseguita molteplici volte prima che l'utente veda un output.
Architettura SRAM e flusso dati lineare
⬆ Torna suL'approccio di Groq all'accelerazione dell'inferenza si basa sull'interleaving delle unità di elaborazione con le unità di memoria sul chip. Invece di affidarsi alla memoria ad alta larghezza di banda (HBM) posizionata accanto alle GPU, il sistema utilizza memoria SRAM integrata direttamente nel processore. Questa architettura semplifica il flusso dei dati attraverso il chip, permettendo un procedimento lineare e ottimizzato.
Mark Heaps, ex chief technology evangelist di Groq e ora direttore del marketing sviluppatori presso Nvidia, ha spiegato al supercomputing conference 2024 che i dati fluiscono direttamente attraverso la SRAM. In una GPU multi-core, molti comandi di istruzione devono essere inviati fuori dal chip, verso la memoria e poi tornare indietro. L'LPU elimina questo passaggio: tutto procede in ordine lineare. L'uso della SRAM consente un flusso dati lineare estremamente rapido, garantendo la bassa latenza richiesta per le applicazioni di inferenza.
Specifiche tecniche: Groq 3 LPU vs Rubin GPU
⬆ Torna suIl confronto tra la GPU Rubin e l'LPU Groq 3 evidenzia differenze architetturali significative. La GPU Rubin dispone di 288 gigabyte di HBM ed è capace di 50 petaFLOPS di calcolo a 4 bit. L'LPU Groq 3 contiene solo 500 megabyte di memoria SRAM ed è capace di 1,2 petaFLOPS di calcolo a 8 bit. Tuttavia, mentre la GPU Rubin ha una larghezza di banda memoria di 22 terabyte al secondo, l'LPU Groq 3 raggiunge i 150 TB/s, sette volte più veloce. Ian Buck, VP e general manager di hyperscale e high-performance computing presso Nvidia, ha dichiarato che l'LPU è ottimizzato specificamente per la generazione di token a latenza estremamente bassa.
Il sistema LPX e la disaggregazione dell'inferenza
⬆ Torna suNvidia ha annunciato il Groq 3 LPX, un tray computazionale combinato che ospita 8 LPU Groq 3 e un Vera Rubin, che accoppia le GPU Rubin con una CPU Vera. Il sistema sfrutta una tecnica chiamata disaggregazione dell'inferenza, che separa il processo in due parti: l'elaborazione del prompt (prefill) e la generazione dell'output (decode). Il prefill è intrinsecamente parallelo e computazionalmente intensivo, mentre il decode è un processo più seriale che richiede molta larghezza di banda memoria.
Il prefill e le parti computazionalmente più intensive del decode vengono eseguiti su Vera Rubin, mentre la parte finale viene gestita dall'LPU Groq 3, sfruttando i punti di forza di ciascun chip. Un rack LPX con 256 processori LPU dispone di 128GB di SRAM on-chip e 640TB/s di larghezza di banda scale-up. Secondo Nvidia, i sistemi combinati promettono fino a 35x di aumento del throughput quando si eseguono modelli linguistici di grandi dimensioni con 1 trilione di parametri.
Produzione e disponibilità
⬆ Torna suHuang ha confermato che Nvidia è già in produzione volumetrica con il chip Groq. La spedizione è prevista per il terzo trimestre. Nvidia ha contrattato Samsung per la produzione dell'LPU. Gli analisti prevedono che Nvidia spedirà tra 4 e 5 milioni di LPU entro la fine del 2027. I nuovi sistemi LPU e Vera Rubin avranno un costo di decine di migliaia di dollari per chip, destinati principalmente alle grandi aziende AI come OpenAI, Anthropic e Meta.
Il contesto competitivo
⬆ Torna suL'annuncio sottolinea la tendenza in corso dell'adozione AI, che sposta il carico computazionale dalla costruzione di modelli sempre più grandi all'effettivo utilizzo di questi modelli su larga scala. Sid Sheth, CEO di d-Matrix, ha dichiarato che l'annuncio di Nvidia convalida l'importanza delle architetture basate su SRAM per l'inferenza su larga scala. I sistemi vincenti combineranno diversi tipi di silicio e si integreranno facilmente nei data center esistenti alongside delle GPU.
Nvidia non è l'unica a perseguire questa strada. Amazon Web Services ha annunciato una collaborazione con Cerebras Systems per sviluppare una piattaforma di inferenza combinata, utilizzando gli acceleratori Trainium 3 di AWS per l'elaborazione dei prompt e gli ASIC WSE-3 di Cerebras per generare token a bassa latenza. Gli ASIC di Cerebras integrano 44 GB di SRAM su un chip delle dimensioni di un wafer.
Considerazioni sul supporto software
⬆ Torna suIan Buck ha precisato che, mentre Nvidia utilizza gli ASIC di Groq per accelerare la sua piattaforma di inferenza, questi non supportano ancora nativamente CUDA. L'azienda sta attualmente sfruttando l'LPU come acceleratore per la CUDA in esecuzione sulla piattaforma Vera NVL 72. Nvidia aveva precedentemente annunciato un processore dedicato al prefill chiamato Rubin CPX, ma quel progetto sembra essere stato abbandonato in favore degli acceleratori di decode basati su LPU di Groq.
Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.
Implicazioni e scenari
⬆ Torna suLa separazione architetturale tra prefill e decode riflette una maturazione del settore: l'inferenza non è più un carico indifferenziato. L'integrazione LPU-GPU nei sistemi LPX suggerisce che la bassa latenza diventerà un requisito competitivo per i provider di modelli linguistici.
- Scenario 1: Se l'adozione dei sistemi combinati LPX crescerà come previsto, i data center potrebbero riconsiderare l'allocazione delle risorse tra training e inferenza, riducendo la dipendenza dalla sola HBM.
- Scenario 2: L'assenza di supporto CUDA nativo sugli LPU potrebbe rallentare l'integrazione nei flussi esistenti, costringendo Nvidia a investire ulteriormente in strati software di compatibilità.
- Scenario 3: La competizione con soluzioni AWS-Cerebras potrebbe accelerare la standardizzazione di architetture ibride per l'inferenza disaggregata.
Cosa monitorare
⬆ Torna su- Tempi di consegna effettivi rispetto alle previsioni di spedizione per il terzo trimestre.
- Eventuali annunci di supporto CUDA nativo per gli LPU Groq 3.
- Primi casi d'uso pubblici da parte di OpenAI, Anthropic o Meta.
Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.
Fonti
⬆ Torna su- https://spectrum.ieee.org/nvidia-groq-3
- https://uk.pcmag.com/ai/163831/nvidia-to-upgrade-ai-chatbot-performance-with-new-lpu-chip
- https://www.theregister.com/2026/03/16/nvidia_lpx_groq_3/
- https://seekingalpha.com/article/4882186-read-this-before-nvidia-gtc-2026-agentic-ai-and-lpu
- https://www.digitimes.com/news/a20260304PD210/nvidia-openai-training-chips-technology.html
- https://azat.tv/en/nvidia-new-ai-inference-chip-groq-lpu-technology/
- https://desinance.com/ai/ai-chip-startup-groq/
In breve
- nvidia
- gpu
- inference
- llm