Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM

Alla conferenza GTC 2026, Nvidia ha annunciato il Groq 3 LPU, un processore specifico per l'inferenza AI che utilizza SRAM on-chip per raggiungere 150 TB/s di…

Contenuto

Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM

Scopri anche

Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM

Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM

In questo articolo:

Durante la conferenza GTC 2026 a San Jose, il CEO di Nvidia Jensen Huang ha annunciato il Groq 3 LPU, un chip progettato specificamente per gestire l'inferenza AI. Il processore integra proprietà intellettuale che Nvidia ha ottenuto in licenza dalla startup Groq per 20 miliardi di dollari lo scorso 24 dicembre. L'LPU funzionerà in concerto con la GPU Rubin per accelerare i carichi di lavoro AI.

La distinzione tra training e inferenza

⬆ Torna su

Secondo Huang, l'AI ha raggiunto un punto di svolta: ora deve pensare e agire, e per farlo deve eseguire inferenza. Training e inferenza hanno requisiti computazionali distinti. Mentre il training può essere eseguito su enormi quantità di dati simultaneamente e richiedere settimane, l'inferenza deve essere eseguita sulla query di un utente nel momento in cui arriva. A differenza del training, l'inferenza non richiede l'esecuzione costosa della retropropagazione. Il requisito principale per l'inferenza è la bassa latenza: gli utenti si aspettano risposte rapide dai chatbot e, per i modelli di ragionamento, l'inferenza viene eseguita molteplici volte prima che l'utente veda un output.

Architettura SRAM e flusso dati lineare

⬆ Torna su

L'approccio di Groq all'accelerazione dell'inferenza si basa sull'interleaving delle unità di elaborazione con le unità di memoria sul chip. Invece di affidarsi alla memoria ad alta larghezza di banda (HBM) posizionata accanto alle GPU, il sistema utilizza memoria SRAM integrata direttamente nel processore. Questa architettura semplifica il flusso dei dati attraverso il chip, permettendo un procedimento lineare e ottimizzato.

Mark Heaps, ex chief technology evangelist di Groq e ora direttore del marketing sviluppatori presso Nvidia, ha spiegato al supercomputing conference 2024 che i dati fluiscono direttamente attraverso la SRAM. In una GPU multi-core, molti comandi di istruzione devono essere inviati fuori dal chip, verso la memoria e poi tornare indietro. L'LPU elimina questo passaggio: tutto procede in ordine lineare. L'uso della SRAM consente un flusso dati lineare estremamente rapido, garantendo la bassa latenza richiesta per le applicazioni di inferenza.

Specifiche tecniche: Groq 3 LPU vs Rubin GPU

⬆ Torna su

Il confronto tra la GPU Rubin e l'LPU Groq 3 evidenzia differenze architetturali significative. La GPU Rubin dispone di 288 gigabyte di HBM ed è capace di 50 petaFLOPS di calcolo a 4 bit. L'LPU Groq 3 contiene solo 500 megabyte di memoria SRAM ed è capace di 1,2 petaFLOPS di calcolo a 8 bit. Tuttavia, mentre la GPU Rubin ha una larghezza di banda memoria di 22 terabyte al secondo, l'LPU Groq 3 raggiunge i 150 TB/s, sette volte più veloce. Ian Buck, VP e general manager di hyperscale e high-performance computing presso Nvidia, ha dichiarato che l'LPU è ottimizzato specificamente per la generazione di token a latenza estremamente bassa.

Il sistema LPX e la disaggregazione dell'inferenza

⬆ Torna su

Nvidia ha annunciato il Groq 3 LPX, un tray computazionale combinato che ospita 8 LPU Groq 3 e un Vera Rubin, che accoppia le GPU Rubin con una CPU Vera. Il sistema sfrutta una tecnica chiamata disaggregazione dell'inferenza, che separa il processo in due parti: l'elaborazione del prompt (prefill) e la generazione dell'output (decode). Il prefill è intrinsecamente parallelo e computazionalmente intensivo, mentre il decode è un processo più seriale che richiede molta larghezza di banda memoria.

Il prefill e le parti computazionalmente più intensive del decode vengono eseguiti su Vera Rubin, mentre la parte finale viene gestita dall'LPU Groq 3, sfruttando i punti di forza di ciascun chip. Un rack LPX con 256 processori LPU dispone di 128GB di SRAM on-chip e 640TB/s di larghezza di banda scale-up. Secondo Nvidia, i sistemi combinati promettono fino a 35x di aumento del throughput quando si eseguono modelli linguistici di grandi dimensioni con 1 trilione di parametri.

Produzione e disponibilità

⬆ Torna su

Huang ha confermato che Nvidia è già in produzione volumetrica con il chip Groq. La spedizione è prevista per il terzo trimestre. Nvidia ha contrattato Samsung per la produzione dell'LPU. Gli analisti prevedono che Nvidia spedirà tra 4 e 5 milioni di LPU entro la fine del 2027. I nuovi sistemi LPU e Vera Rubin avranno un costo di decine di migliaia di dollari per chip, destinati principalmente alle grandi aziende AI come OpenAI, Anthropic e Meta.

Il contesto competitivo

⬆ Torna su

L'annuncio sottolinea la tendenza in corso dell'adozione AI, che sposta il carico computazionale dalla costruzione di modelli sempre più grandi all'effettivo utilizzo di questi modelli su larga scala. Sid Sheth, CEO di d-Matrix, ha dichiarato che l'annuncio di Nvidia convalida l'importanza delle architetture basate su SRAM per l'inferenza su larga scala. I sistemi vincenti combineranno diversi tipi di silicio e si integreranno facilmente nei data center esistenti alongside delle GPU.

Nvidia non è l'unica a perseguire questa strada. Amazon Web Services ha annunciato una collaborazione con Cerebras Systems per sviluppare una piattaforma di inferenza combinata, utilizzando gli acceleratori Trainium 3 di AWS per l'elaborazione dei prompt e gli ASIC WSE-3 di Cerebras per generare token a bassa latenza. Gli ASIC di Cerebras integrano 44 GB di SRAM su un chip delle dimensioni di un wafer.

Considerazioni sul supporto software

⬆ Torna su

Ian Buck ha precisato che, mentre Nvidia utilizza gli ASIC di Groq per accelerare la sua piattaforma di inferenza, questi non supportano ancora nativamente CUDA. L'azienda sta attualmente sfruttando l'LPU come acceleratore per la CUDA in esecuzione sulla piattaforma Vera NVL 72. Nvidia aveva precedentemente annunciato un processore dedicato al prefill chiamato Rubin CPX, ma quel progetto sembra essere stato abbandonato in favore degli acceleratori di decode basati su LPU di Groq.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La separazione architetturale tra prefill e decode riflette una maturazione del settore: l'inferenza non è più un carico indifferenziato. L'integrazione LPU-GPU nei sistemi LPX suggerisce che la bassa latenza diventerà un requisito competitivo per i provider di modelli linguistici.

  • Scenario 1: Se l'adozione dei sistemi combinati LPX crescerà come previsto, i data center potrebbero riconsiderare l'allocazione delle risorse tra training e inferenza, riducendo la dipendenza dalla sola HBM.
  • Scenario 2: L'assenza di supporto CUDA nativo sugli LPU potrebbe rallentare l'integrazione nei flussi esistenti, costringendo Nvidia a investire ulteriormente in strati software di compatibilità.
  • Scenario 3: La competizione con soluzioni AWS-Cerebras potrebbe accelerare la standardizzazione di architetture ibride per l'inferenza disaggregata.

Cosa monitorare

⬆ Torna su
  • Tempi di consegna effettivi rispetto alle previsioni di spedizione per il terzo trimestre.
  • Eventuali annunci di supporto CUDA nativo per gli LPU Groq 3.
  • Primi casi d'uso pubblici da parte di OpenAI, Anthropic o Meta.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • nvidia
  • gpu
  • inference
  • llm

Link utili

Apri l'articolo su DeafNews