Architettura NVIDIA Rubin: Come il Networking Definisce le Performance AI

Analisi dell'architettura NVIDIA Rubin: dalle fabbriche di intelligenza artificiale al design estremo dei chip di networking per inference e training distribui…

Contenuto

Scopri anche

In questo articolo:

L'Evoluzione delle Fabbriche di Intelligenza Artificiale

⬆ Torna su

L'intelligenza artificiale ha superato la fase sperimentale per entrare in una vera e propria industrializzazione. I sistemi non si limitano più ad addestrare modelli isolati o a gestire inferenze su richiesta umana. Oggi operano come fabbriche di intelligenza sempre attive, che convertono continuamente energia, silicio e dati in capacità cognitive su larga scala.

Queste infrastrutture supportano applicazioni che generano piani aziendali, analizzano mercati, conducono ricerche approfondite e ragionano su vaste basi di conoscenza. Per fornire queste capacità, le fabbriche AI di nuova generazione devono elaborare centinaia di migliaia di token di input per garantire il contesto lungo richiesto dal ragionamento agentivo, dai workflow complessi e dalle pipeline multimodali.

Tutto questo avviene mantenendo l'inferenza in tempo reale, rispettando però vincoli stringenti su potenza, affidabilità, sicurezza, velocità di deployment e costo. La piattaforma NVIDIA Rubin nasce per rispondere a queste esigenze attraverso un approccio radicale al design di sistema.

Extreme Co-Design: La Base della Piattaforma Rubin

⬆ Torna su

Il fondamento della piattaforma Rubin risiede nell'extreme co-design. GPU, CPU, networking, sicurezza, software, alimentazione e raffreddamento sono progettati insieme come un sistema unico, anziché essere ottimizzati in isolamento. Questo approccio tratta il data center, e non il singolo server GPU, come unità di calcolo fondamentale.

La piattaforma stabilisce così una nuova base per produrre intelligenza in modo efficiente, sicuro e prevedibile su larga scala. Garantisce che le prestazioni e l'efficienza si mantengano negli ambienti di produzione reali, non solo nei benchmark isolati sui componenti.

I carichi di lavoro AI moderni dipendono sempre più da modelli di ragionamento e agenti che eseguono inferenze multi-step su contesti estremamente lunghi. Questi workload stressano simultaneamente ogni livello della piattaforma: le prestazioni di calcolo effettive, la comunicazione GPU-to-GPU, la latenza dell'interconnessione, la larghezza di banda e la capacità della memoria, l'efficienza di utilizzo e l'alimentazione.

Vera Rubin NVL72: Il Sistema Rack-Scale Coerente

⬆ Torna su

Il sistema di punta della piattaforma Rubin è il Vera Rubin NVL72, un sistema rack-scale ingegnerizzato per far sì che l'intero rack operi come una macchina coerente all'interno di una più grande fabbrica AI. NVIDIA Blackwell NVL72 è stato il primo esempio di architettura rack-scale, liberando GPU, CPU e interconnessioni dai confini tradizionali del server.

Il sistema NVL72 è ottimizzato non solo per le prestazioni di picco, ma per la produzione di intelligenza sostenuta: latenza prevedibile, alta utilizzazione attraverso fasi di esecuzione eterogenee e conversione efficiente della potenza in intelligenza utilizzabile.

Questa architettura permette ai sistemi basati su Rubin di comportarsi come unità prevedibili, sicure e continuamente disponibili per la produzione di intelligenza, piuttosto che come semplici collezioni di componenti indipendenti.

I Sei Chip della Piattaforma Rubin

⬆ Torna su

La piattaforma Rubin è costruita attorno a sei nuovi chip, ciascuno ingegnerizzato per un ruolo specifico nella fabbrica AI e progettato fin dall'inizio per operare come parte di un sistema rack-scale unificato. Invece di trattare calcolo, networking e infrastruttura come livelli debolmente accoppiati, Rubin li integra direttamente nell'architettura.

I chip includono la Vera CPU, la GPU Rubin e quattro distinti chip di networking. Insieme, formano un'architettura sincronizzata in cui le GPU eseguono workload dell'era transformer, le CPU orchestrano il flusso di dati e controllo, i fabric scale-up e scale-out movimentano token e stato in modo efficiente e i processori di infrastruttura dedicati gestiscono e proteggono la fabbrica AI stessa.

La Vera CPU, in particolare, è progettata specificamente per orchestrare il movimento dei dati, la memoria e il flusso di controllo per sostenere l'utilizzo della GPU alla scala della fabbrica AI. Man mano che le fabbriche AI scalano, le prestazioni della GPU da sole non sono più sufficienti a sostenere il throughput.

La Doppia Rete: Scale-Up e Scale-Out

⬆ Torna su

Per raggiungere i vantaggi prestazionali dichiarati – una riduzione di dieci volte dei costi di inference e di quattro volte del numero di GPU necessarie per l'addestramento rispetto all'architettura Blackwell – i componenti devono lavorare in concerto. Lo stesso componente, connesso in modo diverso, può fornire un livello di prestazione completamente differente, da qui la necessità dell'extreme co-design.

I workload AI, sia di training che di inference, vengono eseguiti simultaneamente su un gran numero di GPU. L'inference, che due anni fa veniva gestita principalmente su una singola GPU o un singolo server, sta diventando sempre più distribuita, arrivando a coinvolgere più rack.

Per supportare questi task distribuiti, è necessario che quante più GPU possibile lavorino efficacemente come un'unica unità. Questo è l'obiettivo della cosiddetta rete scale-up: la connessione delle GPU all'interno di un singolo rack.

NVLink6: Il Cuore del Networking Scale-Up

⬆ Torna su

Nvidia gestisce questa connessione interna con il suo chip di networking NVLink. La nuova generazione include lo switch NVLink6, che raddoppia la banda passante della versione precedente, raggiungendo 3.600 gigabyte al secondo per le connessioni GPU-to-GPU, rispetto ai 1.800 GB/s dello switch NVLink5.

Oltre al raddoppio della banda, i chip scale-up includono anche il doppio del numero di SerDes (serializzatori/deserializzatori) e un numero ampliato di operazioni di calcolo che possono essere eseguite all'interno della rete stessa. La rete scale-up non è considerata solo un'infrastruttura di rete, ma un'infrastruttura di calcolo a tutti gli effetti.

Il Ruolo dell'In-Network Computing

⬆ Torna su

Lo scaricamento di alcune operazioni dalle GPU alla rete avviene per due ragioni principali. La prima è permettere che alcuni task vengano eseguiti una sola volta, invece di costringere ogni GPU a ripeterli. Un esempio comune è l'operazione "all-reduce" durante il training AI.

Ogni GPU calcola un'operazione matematica chiamata gradiente sul proprio batch di dati. Affinché il modello si addestri correttamente, tutte le GPU devono conoscere il gradiente medio calcolato su tutti i batch. Eseguire questa operazione una volta sola all'interno della rete, invece che su ogni GPU, consente di risparmiare tempo computazionale e energia.

La seconda ragione è mascherare il tempo necessario per il trasferimento dei dati tra le GPU, eseguendo calcoli su di essi durante il transito. Questa pratica, paragonata a cuocere una pizza mentre la si trasporta per ridurre il tempo di consegna totale, non è nuova nell'architettura Nvidia, ma l'iterazione di Rubin aggiunge una gamma più ampia di calcoli eseguibili in rete.

I Chip della Rete Scale-Out

⬆ Torna su

Gli altri chip di networking inclusi nell'architettura Rubin costituiscono la cosiddetta rete scale-out, che collega tra loro i diversi rack all'interno del data center. Questi chip sono il ConnectX-9, una scheda di interfaccia di rete; il BlueField-4, un'unità di elaborazione dati accoppiata con due CPU Vera e una scheda ConnectX-9 per lo scarico di task di networking, storage e sicurezza; e infine lo switch Ethernet Spectrum-6.

Lo switch Spectrum-6 utilizza ottiche co-pacchettizzate per inviare dati tra i rack e raddoppia la banda passante delle generazioni precedenti, minimizzando al contempo il jitter, ovvero la variazione nei tempi di arrivo dei pacchetti di informazioni. Un'infrastruttura scale-out deve garantire che le GPU possano comunicare efficacemente per eseguire un carico di lavoro distribuito, il che richiede una rete priva di jitter.

Verso un'Efficienza Sostenibile su Larga Scala

⬆ Torna su

La piattaforma Rubin rappresenta un passo avanti nell'evoluzione delle infrastrutture computazionali per l'intelligenza artificiale. Il suo approccio sistemi

In breve

architettura
gpu
networking
inference

Approfondimenti

Architettura

Il termine "architettura" è trattato nel testo in modo coerente con le informazioni presenti nell’articolo.

Gpu

Il termine "gpu" è trattato nel testo in modo coerente con le informazioni presenti nell’articolo.

Networking

Il termine "networking" è trattato nel testo in modo coerente con le informazioni presenti nell’articolo.

Inference

Il termine "inference" è trattato nel testo in modo coerente con le informazioni presenti nell’articolo.

Training

Il termine "training" è trattato nel testo in modo coerente con le informazioni presenti nell’articolo.

FAQ

Cosa significa architettura?

Il termine "architettura" viene utilizzato nell’articolo secondo le informazioni fornite dalle fonti originali.

Cosa significa gpu?

Il termine "gpu" viene utilizzato nell’articolo secondo le informazioni fornite dalle fonti originali.

Cosa significa networking?

Il termine "networking" viene utilizzato nell’articolo secondo le informazioni fornite dalle fonti originali.

Cosa significa inference?

Il termine "inference" viene utilizzato nell’articolo secondo le informazioni fornite dalle fonti originali.

Contenuto

Scopri anche

Architettura NVIDIA Rubin: Come il Networking Definisce le Performance AI

L'Evoluzione delle Fabbriche di Intelligenza Artificiale

Extreme Co-Design: La Base della Piattaforma Rubin

Vera Rubin NVL72: Il Sistema Rack-Scale Coerente

I Sei Chip della Piattaforma Rubin

La Doppia Rete: Scale-Up e Scale-Out

NVLink6: Il Cuore del Networking Scale-Up

Il Ruolo dell'In-Network Computing

I Chip della Rete Scale-Out

Verso un'Efficienza Sostenibile su Larga Scala

In breve

Approfondimenti

Architettura

Gpu

Networking

Inference

Training

FAQ

Cosa significa architettura?

Cosa significa gpu?

Cosa significa networking?

Cosa significa inference?

Link utili