Il ritorno delle CPU nei data center: l'infrastruttura server nell'era dell'AI agente

La domanda di CPU per data center sta crescendo rapidamente grazie ai carichi di lavoro AI agente. AMD, Intel e Nvidia si contendono un mercato che potrebbe ra…

Contenuto

Il ritorno delle CPU nei data center: l'infrastruttura server nell'era dell'AI agente

Scopri anche

Il ritorno delle CPU nei data center: l'infrastruttura server nell'era dell'AI agente

Il ritorno delle CPU nei data center: l'infrastruttura server nell'era dell'AI agente

In questo articolo:

Dal 2023, le GPU hanno dominato la narrazione infrastrutturale, con gli investimenti concentrati sugli acceleratori per il training e l'inferenza dei modelli AI. Le CPU, tradizionalmente cuore pulsante di ogni data center, sono rimaste in secondo piano. Negli ultimi mesi questo scenario è cambiato: Meta e Nvidia hanno annunciato il più grande deployment di server Grace-only fino ad oggi, AMD ha firmato accordi per le sue CPU Venice e Verano, e Intel ha citato l'AI come driver principale della domanda CPU durante la chiamata sui risultati del 22 gennaio. La CPU sta riconquistando un ruolo centrale nell'architettura dei data center moderni.

Perché le CPU tornano protagoniste nell'AI

⬆ Torna su

La diffusione dell'AI inferenza e dell'AI agente sta ridefinendo i requisiti computazionali. A differenza dei chatbot tradizionali, dove la GPU esegue la maggior parte dei calcoli, i sistemi agente autonomi richiedono orchestrazione, chiamate API, gestione della memoria e coordinamento tra sotto-agenti che gravano pesantemente sulla CPU. Secondo un documento di ricerca di Georgia Tech e Intel del novembre 2025, l'elaborazione degli strumenti sulle CPU rappresenta tra il 50% e il 90% della latenza totale nei carichi di lavoro agente. In molti workflow, la GPU rimane inattesa mentre aspetta che la CPU completi il proprio lavoro prima di ricevere il batch successivo di token.

La CPU gestisce la pianificazione dei compiti, l'esecuzione degli strumenti, le chiamate di rete, l'I/O dei file e il coordinamento tra agenti. Quando un agente AI deve prenotare un viaggio, per esempio, il modello genera il piano, ma la CPU esegue le chiamate API ai siti delle compagnie aeree, elabora le risposte JSON e coordina i risultati. Questa dinamica inverte le proporzioni infrastrutturali: se nell'era dei chatbot servivano poche CPU abbinate a cluster GPU massicci, nell'era agente potrebbe servire un rapporto CPU-GPU più elevato.

I dati finanziari: AMD e Intel tra crescita e vincoli di approvvigionamento

⬆ Torna su

AMD ha registrato ricavi record di 5,4 miliardi di dollari nel segmento data center nel Q4 2025, con una crescita del 39% anno su anno. La CEO Lisa Su ha evidenziato che la domanda di CPU EPYC sta crescendo perché i carichi di lavoro agente e AI emergenti richiedono CPU ad alte prestazioni per i nodi head e per eseguire compiti paralleli alongside le GPU. Le CPU EPYC di quinta generazione Turin hanno rappresentato più della metà dei ricavi totali dei server CPU entro la fine del Q4, e le istanze cloud EPYC sono cresciute oltre il 50% anno su anno, arrivando a quasi 1.600 istanze.

Intel ha riportato ricavi Q4 di 13,7 miliardi di dollari, con i ricavi data center e AI in crescita del 15% sequenziale, la crescita sequenziale più rapida del decennio. Tuttavia, l'azienda ha ammesso di non poter soddisfare tutta la domanda. Il CEO Lip-Bu Tan ha dichiarato che i risultati sono stati consegnati "nonostante i vincoli di approvvigionamento, che hanno limitato significativamente la capacità di catturare tutta la forza nei mercati". Il CFO David Zinsner ha riconosciuto che Intel ha "sottostimato" il ritmo della domanda CPU per data center e sta riallocando capacità wafer dai CPU client ai CPU server.

Intel Clearwater Forest: 288 core e processo 18A

⬆ Torna su

Intel ha presentato formalmente i processori Xeon 6+ con nome in codice Clearwater Forest, che integrano fino a 288 core efficienti Darkmont e sono i primi CPU per data center prodotti con il processo di fabbricazione 18A (classe 1,8nm). I processori combinano 12 tile di calcolo contenenti 24 core Darkmont ciascuno, prodotti con tecnologia 18A, due tile I/O realizzati con nodo Intel 7, e tre tile base attivi con processo Intel 3. I tile di calcolo sono impilati sopra i base die usando la tecnologia Foveros Direct 3D di Intel.

I core Darkmont presentano miglioramenti microarchitetturali significativi: cache istruzioni L1 da 64 KB, pipeline fetch e decode più ampia, e motore out-of-order più profondo capace di tracciare più operazioni in-flight. Il numero di porte di esecuzione è stato aumentato per migliorare throughput scalare e vettoriale. La gerarchia delle cache raggruppa i core in blocchi da quattro che condividono circa 4 MB di cache L2 per blocco, con una cache di ultimo livello che supera 1 GB totali per ridurre la dipendenza dalla larghezza di banda memoria esterna. La piattaforma rimane compatibile con il socket server Xeon esistente, con 12 canali memoria che supportano DDR5-8000 e 96 lane PCIe 5.0 di cui 64 supportano CXL 2.0.

Nvidia Grace e Vera: scommessa sulle CPU standalone

⬆ Torna su

Nvidia sta investendo pesantemente anche sul fronte CPU. La prossima CPU Vera, parte della piattaforma Rubin annunciata al CES 2026, è progettata specificamente per carichi di lavoro di reasoning agente. Vera offre fino al doppio delle prestazioni rispetto alla precedente CPU Grace, con 88 core per die e incrementi significativi in memoria e larghezza di banda chip-to-chip. Nvidia ha annunciato che Vera può essere deployata come piattaforma standalone per elaborazione agente, separata dalla GPU. CoreWeave utilizzerà CPU Vera standalone, e secondo il CEO Jensen Huang "ci saranno molti altri" deployment CPU standalone.

La partnership tra Meta e Nvidia prevede il deployment su larga scala di CPU Nvidia e milioni di GPU Blackwell e Rubin, oltre all'integrazione degli switch Ethernet Spectrum-X per la piattaforma Facebook Open Switching System. La collaborazione rappresenta il primo deployment su larga scala di Grace-only di Nvidia. Questo conferma la tesi che nell'AI agente il rapporto CPU-GPU deve aumentare, e alcuni carichi di lavoro possono essere puramente CPU-bound.

L'accordo AWS-OpenAI e i milioni di CPU

⬆ Torna su

Nel novembre 2025, AWS e OpenAI hanno annunciato una partnership strategica da 38 miliardi di dollari su sette anni. Il comunicato stampa specifica che OpenAI avrà accesso a "centinaia di migliaia di GPU NVIDIA all'avanguardia, con la possibilità di espandere fino a decine di milioni di CPU per scalare rapidamente i carichi di lavoro agente". Secondo UncoverAlpha, il dettaglio sulle CPU è significativo: decine di milioni di CPU per carichi di lavoro agente suggerisce quanto i laboratori AI frontier stiano prendendo sul serio il calcolo CPU come requisito di scaling.

Il collo di bottiglia CPU è già realtà

⬆ Torna su

La catena di approvvigionamento dei CPU server è sotto stress significativo. Intel ha avvertito i clienti cinesi di tempi di consegna fino a sei mesi per alcuni CPU server. I lead time di AMD si sono estesi a 8-10 settimane per alcuni prodotti. I prezzi dei chip server Intel in Cina sono aumentati oltre il 10%. TSMC sta priorizzando gli acceleratori AI, il che significa meno capacità per i CPU. Il presidente TSMC C.C. Wei ha dichiarato pubblicamente che la capacità dei nodi avanzati è "circa tre volte inferiore" rispetto a quanto i clienti principali prevedono di consumare.

Un distributore IT globale riferisce che le carenze CPU stanno guidando "direttamente un aumento del 30% nei prezzi medi di vendita nel Q4 2025" con backlog aumentati mentre l'ordine intake supera le aspettative. Intel prevede che l'approvvigionamento tocchi il punto più basso nel Q1 2026 prima di migliorare nel Q2. La carenza globale di memoria sta creando un effetto pull-forward sugli acquisti CPU: quando i prezzi memoria hanno iniziato a salire in Cina, i clienti hanno anticipato gli acquisti CPU per bloccare i prezzi a livello sistema prima che i costi aumentassero ulteriormente.

Proiezioni di mercato: da 27 a 60 miliardi di dollari

⬆ Torna su

Secondo BofA Global Research, il mercato indirizzabile totale per le CPU dovrebbe crescere da 27 miliardi di dollari nel 2025 fino a 60 miliardi entro la fine del 2030. I server AI rappresenteranno circa il 70% di questo importo, mentre i server non AI costituiranno il 19%. Non si tratta di un gioco a somma zero: mentre le CPU crescono, anche le GPU continuano a crescere, perché ci sono sempre più carichi di lavoro. AMD ha guidato per una crescita dei ricavi del segmento data center superiore al 60% annuo nei prossimi tre-cinque anni, con il business AI che scala fino a decine di miliardi di ricavi annuali entro il 2027.

Il panorama competitivo: AMD EPYC vs Intel Xeon vs ARM

⬆ Torna su

Secondo i dati AMD, un singolo server basato su CPU AMD EPYC 9005 può fare il lavoro di oltre otto server Intel Xeon Platinum dell'era 2019. La quinta generazione EPYC offre fino all'1,33x di throughput inferenza in più rispetto a Intel Xeon 6980P sul caso d'uso di traduzione Llama3.1-8B, fino all'1,93x di throughput in più su XGBoost, e fino all'1,7x di throughput AI generale in più sul benchmark TPCx-AI. I CPU EPYC di quinta generazione hanno attualmente il conteggio core più alto disponibile nei processori server x86, con 192 core.

Il panorama 2026 vede intensa competizione tra vendor x86 e un ecosistema ARM in rapida maturazione. Una tendenza notevole è la rimozione di SMT dai core performance: sebbene riduca il throughput teorico a livello thread, migliora l'efficienza area, la prevedibilità power e l'isolamento di sicurezza. ARM è passata dal licensing puro di core a offrire design CPU più completi a livello piattaforma. I grandi adottanti integrano questi design in silicio server personalizzato, accelerando la diversificazione dell'ecosistema. Google ha annunciato i suoi primi CPU basati su ARM, chiamati Google Axion Processors, disponibili per i clienti entro fine 2024, costruiti usando Arm Neoverse V2.

Architettura e design: evoluzione dei requisiti CPU

⬆ Torna su

I CPU moderni per data center si stanno specializzando in due categorie. I CPU head node gestiscono le GPU collegate e devono mantenerle alimentate con dati: alte prestazioni per-core con cache grandi e memoria e IO ad alta larghezza di banda sono desiderabili per mantenere le latenze di coda basse. Per gli head node, tipicamente 1 CPU è accoppiata a 2 o 4 GPU in ogni nodo compute. I CPU cloud-native mirano al massimo throughput e richieste servite per socket alla migliore efficienza, con conteggi core più alti e core di dimensioni medie efficienti area e potenza, meno cache e capacità IO rispetto ai CPU tradizionali.

Nel data center Microsoft "Fairwater" per OpenAI, un edificio CPU e storage da 48MW supporta il cluster GPU principale da 295MW. Decine di migliaia di CPU sono necessarie per processare e gestire i petabyte di dati generati dalle GPU. Il rapporto CPU-GPU potrà aumentare ulteriormente con future generazioni di GPU come Rubin, che richiederanno un rapporto di potenza CPU-GPU ancora più alto dell'attuale rapporto 1:6 osservato in Fairwater.

Reinforcement Learning e RAG: nuovi driver di domanda

⬆ Torna su

L'uso di tecniche di Reinforcement Learning per il miglioramento dei modelli aumenta ulteriormente la domanda CPU. Nel loop di training RL, l'ambiente deve eseguire le azioni generate dal modello e calcolare il reward appropriato. Per fare questo in aree come coding e matematica, molti CPU sono necessari in parallelo per compilazione codice, verifica, interpretazione e uso degli strumenti. I CPU sono anche pesantemente coinvolti in simulazioni fisiche complesse e verifica di dati sintetici generati ad alta precisione.

Sul fronte inferenza, l'ascesa di modelli RAG (Retrieval Augmented Generation) e modelli agente che invocano strumenti e interrogano database ha aumentato significativamente la necessità di calcolo general-purpose CPU per servire queste richieste. Con la capacità di inviare chiamate API a fonti multiple, ogni agente può usare internet molto più intensamente di un umano attraverso semplici ricerche. AWS e Azure stanno facendo massicci buildout delle proprie linee Graviton e Cobalt così come acquistando ancora più server x86 general-purpose.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La riscoperta delle CPU come componente critica nell'architettura dei data center potrebbe ridefinire gli equilibri competitivi tra i produttori di chip. Se i carichi di lavoro agente continuano a espandersi, la domanda di CPU ad alte prestazioni potrebbe crescere in modo非線形, creando tensioni persistenti sulla catena di approvvigionamento.

  • Scenario 1: I tempi di consegna si allungano oltre il Q1 2026, con prezzi che rimangono elevati e distribuzione selettiva verso i clienti strategici, come già accennato per il mercato cinese.
  • Scenario 2: La riallocazione della capacità produttiva dai CPU client ai CPU server descritta da Intel migliora gradualmente l'offerta, ma ritarda la disponibilità di processori per il mercato consumer.
  • Scenario 3: Nvidia consolida la posizione nelle CPU standalone con Vera, diventando un competitor diretto per AMD e Intel nei carichi di lavoro di reasoning agente.

Cosa monitorare

⬆ Torna su
  • L'evoluzione dei lead time di AMD e Intel nei prossimi trimestri come indicatore della pressione sulla domanda.
  • Gli annunci di deployment Grace-only e Vera standalone oltre a quello di Meta.
  • Le decisioni di TSMC sull'allocazione della capacità tra acceleratori e CPU server.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • server
  • ai
  • nvidia
  • amd

Link utili

Apri l'articolo su DeafNews