Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM

Alla conferenza GTC 2026, Nvidia ha annunciato il Groq 3 LPU, un processore specifico per l'inferenza AI che utilizza SRAM on-chip per raggiungere 150 TB/s di…

Contenuto

Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM

Scopri anche

GreenBoost: il driver open source che estende la VRAM delle GPU NVIDIA con RAM di sistema e NVMe
NVIDIA GTC 2026: Keynote di Jensen Huang e sviluppi sull'infrastruttura AI
NVIDIA registra ricavi record per 39,3 miliardi nel Q4 FY2025: Blackwell traina la rivoluzione dell'AI agentic
Meta svela la roadmap di quattro nuovi chip MTIA: infrastruttura AI interna entro il 2027
Nvidia domina il mercato GPU per data center mentre AMD guadagna terreno con accordi strategici e nuove sfide geopolitiche
Tecniche di addestramento e ottimizzazione degli LLM: dati, distillazione e quantizzazione
Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani
Toyota richiama 141.286 Prius: le porte posteriori possono aprirsi durante la guida
Nvidia verso i 20 trilioni di dollari: la strategia di espansione nel mercato dell'intelligenza artificiale
Intel e SambaNova stringono partnership strategica per l'inferenza AI: presentato il chip SN50
Qwen 3.5: Alibaba lancia modelli open-source che competono con GPT e Gemini
Nvidia GTC 2026: Rubin Ultra, architettura Feynman e la svolta verso l'AI Agentic
L'ascesa delle CPU nei data center AI: il nuovo ruolo dell'infrastruttura di calcolo
Ottimizzazione dell'inferenza AI: vLLM, PagedAttention e nuovi paradigmi per i Large Language Models
Agenti AI e società simulate: il 2026 come anno di svolta tra memoria, autonomia e nuove interazioni sociali
Samsung Galaxy S26: l'intelligenza artificiale agentica diventa proattiva
CoWoS e HBM: i colli di bottiglia dell'infrastruttura AI nel 2026
NVIDIA: investitori istituzionali aumentano posizioni mentre gli insider vendono
Confronto prestazionale tra GPU AMD e NVIDIA nell'inferenza AI: benchmark e analisi tecnica
ChatGPT e l'evoluzione dei modelli di linguaggio: funzionamento, limiti e competitizione

Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM

In questo articolo:

Durante la conferenza GTC 2026 a San Jose, il CEO di Nvidia Jensen Huang ha annunciato il Groq 3 LPU, un chip progettato specificamente per gestire l'inferenza AI. Il processore integra proprietà intellettuale che Nvidia ha ottenuto in licenza dalla startup Groq per 20 miliardi di dollari lo scorso 24 dicembre. L'LPU funzionerà in concerto con la GPU Rubin per accelerare i carichi di lavoro AI.

La distinzione tra training e inferenza

⬆ Torna su

Secondo Huang, l'AI ha raggiunto un punto di svolta: ora deve pensare e agire, e per farlo deve eseguire inferenza. Training e inferenza hanno requisiti computazionali distinti. Mentre il training può essere eseguito su enormi quantità di dati simultaneamente e richiedere settimane, l'inferenza deve essere eseguita sulla query di un utente nel momento in cui arriva. A differenza del training, l'inferenza non richiede l'esecuzione costosa della retropropagazione. Il requisito principale per l'inferenza è la bassa latenza: gli utenti si aspettano risposte rapide dai chatbot e, per i modelli di ragionamento, l'inferenza viene eseguita molteplici volte prima che l'utente veda un output.

Architettura SRAM e flusso dati lineare

⬆ Torna su

L'approccio di Groq all'accelerazione dell'inferenza si basa sull'interleaving delle unità di elaborazione con le unità di memoria sul chip. Invece di affidarsi alla memoria ad alta larghezza di banda (HBM) posizionata accanto alle GPU, il sistema utilizza memoria SRAM integrata direttamente nel processore. Questa architettura semplifica il flusso dei dati attraverso il chip, permettendo un procedimento lineare e ottimizzato.

Mark Heaps, ex chief technology evangelist di Groq e ora direttore del marketing sviluppatori presso Nvidia, ha spiegato al supercomputing conference 2024 che i dati fluiscono direttamente attraverso la SRAM. In una GPU multi-core, molti comandi di istruzione devono essere inviati fuori dal chip, verso la memoria e poi tornare indietro. L'LPU elimina questo passaggio: tutto procede in ordine lineare. L'uso della SRAM consente un flusso dati lineare estremamente rapido, garantendo la bassa latenza richiesta per le applicazioni di inferenza.

Specifiche tecniche: Groq 3 LPU vs Rubin GPU

⬆ Torna su

Il confronto tra la GPU Rubin e l'LPU Groq 3 evidenzia differenze architetturali significative. La GPU Rubin dispone di 288 gigabyte di HBM ed è capace di 50 petaFLOPS di calcolo a 4 bit. L'LPU Groq 3 contiene solo 500 megabyte di memoria SRAM ed è capace di 1,2 petaFLOPS di calcolo a 8 bit. Tuttavia, mentre la GPU Rubin ha una larghezza di banda memoria di 22 terabyte al secondo, l'LPU Groq 3 raggiunge i 150 TB/s, sette volte più veloce. Ian Buck, VP e general manager di hyperscale e high-performance computing presso Nvidia, ha dichiarato che l'LPU è ottimizzato specificamente per la generazione di token a latenza estremamente bassa.

Il sistema LPX e la disaggregazione dell'inferenza

⬆ Torna su

Nvidia ha annunciato il Groq 3 LPX, un tray computazionale combinato che ospita 8 LPU Groq 3 e un Vera Rubin, che accoppia le GPU Rubin con una CPU Vera. Il sistema sfrutta una tecnica chiamata disaggregazione dell'inferenza, che separa il processo in due parti: l'elaborazione del prompt (prefill) e la generazione dell'output (decode). Il prefill è intrinsecamente parallelo e computazionalmente intensivo, mentre il decode è un processo più seriale che richiede molta larghezza di banda memoria.

Il prefill e le parti computazionalmente più intensive del decode vengono eseguiti su Vera Rubin, mentre la parte finale viene gestita dall'LPU Groq 3, sfruttando i punti di forza di ciascun chip. Un rack LPX con 256 processori LPU dispone di 128GB di SRAM on-chip e 640TB/s di larghezza di banda scale-up. Secondo Nvidia, i sistemi combinati promettono fino a 35x di aumento del throughput quando si eseguono modelli linguistici di grandi dimensioni con 1 trilione di parametri.

Produzione e disponibilità

⬆ Torna su

Huang ha confermato che Nvidia è già in produzione volumetrica con il chip Groq. La spedizione è prevista per il terzo trimestre. Nvidia ha contrattato Samsung per la produzione dell'LPU. Gli analisti prevedono che Nvidia spedirà tra 4 e 5 milioni di LPU entro la fine del 2027. I nuovi sistemi LPU e Vera Rubin avranno un costo di decine di migliaia di dollari per chip, destinati principalmente alle grandi aziende AI come OpenAI, Anthropic e Meta.

Il contesto competitivo

⬆ Torna su

L'annuncio sottolinea la tendenza in corso dell'adozione AI, che sposta il carico computazionale dalla costruzione di modelli sempre più grandi all'effettivo utilizzo di questi modelli su larga scala. Sid Sheth, CEO di d-Matrix, ha dichiarato che l'annuncio di Nvidia convalida l'importanza delle architetture basate su SRAM per l'inferenza su larga scala. I sistemi vincenti combineranno diversi tipi di silicio e si integreranno facilmente nei data center esistenti alongside delle GPU.

Nvidia non è l'unica a perseguire questa strada. Amazon Web Services ha annunciato una collaborazione con Cerebras Systems per sviluppare una piattaforma di inferenza combinata, utilizzando gli acceleratori Trainium 3 di AWS per l'elaborazione dei prompt e gli ASIC WSE-3 di Cerebras per generare token a bassa latenza. Gli ASIC di Cerebras integrano 44 GB di SRAM su un chip delle dimensioni di un wafer.

Considerazioni sul supporto software

⬆ Torna su

Ian Buck ha precisato che, mentre Nvidia utilizza gli ASIC di Groq per accelerare la sua piattaforma di inferenza, questi non supportano ancora nativamente CUDA. L'azienda sta attualmente sfruttando l'LPU come acceleratore per la CUDA in esecuzione sulla piattaforma Vera NVL 72. Nvidia aveva precedentemente annunciato un processore dedicato al prefill chiamato Rubin CPX, ma quel progetto sembra essere stato abbandonato in favore degli acceleratori di decode basati su LPU di Groq.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La separazione architetturale tra prefill e decode riflette una maturazione del settore: l'inferenza non è più un carico indifferenziato. L'integrazione LPU-GPU nei sistemi LPX suggerisce che la bassa latenza diventerà un requisito competitivo per i provider di modelli linguistici.

Scenario 1: Se l'adozione dei sistemi combinati LPX crescerà come previsto, i data center potrebbero riconsiderare l'allocazione delle risorse tra training e inferenza, riducendo la dipendenza dalla sola HBM.
Scenario 2: L'assenza di supporto CUDA nativo sugli LPU potrebbe rallentare l'integrazione nei flussi esistenti, costringendo Nvidia a investire ulteriormente in strati software di compatibilità.
Scenario 3: La competizione con soluzioni AWS-Cerebras potrebbe accelerare la standardizzazione di architetture ibride per l'inferenza disaggregata.

Cosa monitorare

⬆ Torna su

Tempi di consegna effettivi rispetto alle previsioni di spedizione per il terzo trimestre.
Eventuali annunci di supporto CUDA nativo per gli LPU Groq 3.
Primi casi d'uso pubblici da parte di OpenAI, Anthropic o Meta.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM

Contenuto

Scopri anche

Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM

La distinzione tra training e inferenza

Architettura SRAM e flusso dati lineare

Specifiche tecniche: Groq 3 LPU vs Rubin GPU

Il sistema LPX e la disaggregazione dell'inferenza

Produzione e disponibilità

Il contesto competitivo

Considerazioni sul supporto software

Implicazioni e scenari

Cosa monitorare

Fonti

In breve

Link utili