SynthSmith: addestramento AI con dati sintetici e nuove architetture chip

Ricercatori Tsinghua e Microsoft sviluppano pipeline SynthSmith per addestrare modelli AI senza dati reali, mentre NVIDIA e startup cinesi introducono nuove pi…

Contenuto

SynthSmith: addestramento AI con dati sintetici e nuove architetture chip

Scopri anche

SynthSmith: addestramento AI con dati sintetici e nuove architetture chip

SynthSmith: addestramento AI con dati sintetici e nuove architetture chip

In questo articolo:

Una risposta alla scarsità di dati reali

⬆ Torna su

Ricercatori dell'Università di Tsinghua e Microsoft Research Asia hanno sviluppato SynthSmith, una pipeline di dati sintetici per addestrare modelli di intelligenza artificiale senza bisogno di dati del mondo reale. Il sistema utilizza chip del principale designer statunitense NVIDIA.

Secondo il paper pubblicato sul repository ad accesso aperto arXiv l'11 gennaio, SynthSmith ha permesso di sviluppare un modello di coding di dimensioni ridotte che ha superato le prestazioni di un modello di dimensioni doppie. Questo approccio potrebbe affrontare un collo di bottiglia chiave: la scarsità di dati real-world per migliorare i modelli AI.

I dati sintetici, che mimano i dati reali, vengono generati da algoritmi di intelligenza artificiale. Con la progressiva scarsità di nuovi dati reali, i ricercatori stanno sperimentando con dati sintetici per continuare a migliorare i modelli AI.

Risultati promettenti nell'addestramento

⬆ Torna su

Utilizzando SynthSmith, i ricercatori hanno addestrato un modello X-Coder con 7 miliardi di parametri. Questo modello ha ottenuto punteggi più elevati rispetto a modelli con 14 miliardi di parametri sui principali benchmark di coding, nonostante abbia utilizzato meno dati e nessun dato del mondo reale.

L'analisi approfondita condotta dal team ha rivelato che le leggi di scaling si applicano al loro dataset sintetico. La ricerca ha coinvolto collaborazioni tra Tsinghua University, Microsoft Research Asia e Wuhan University.

L'evoluzione delle architetture hardware

⬆ Torna su

Parallelamente allo sviluppo di nuovi metodi di addestramento, NVIDIA ha introdotto la piattaforma Rubin, progettata specificamente per le fabbriche AI. Queste rappresentano una fase industriale dell'intelligenza artificiale, evolvendosi da sistemi che eseguivano training di modelli discreti e inference verso sistemi sempre attivi che convertono continuamente energia, silicio e dati in intelligenza su larga scala.

La piattaforma Rubin tratta il data center, non un singolo server GPU, come unità di calcolo. Questo approccio stabilisce una nuova base per produrre intelligenza in modo efficiente, sicuro e prevedibile su larga scala.

Architettura rack-scale per performance sostenute

⬆ Torna su

Il sistema Vera Rubin NVL72 rappresenta l'elemento principale della piattaforma Rubin, progettato in modo che l'intero rack operi come una macchina coerente all'interno di una più grande fabbrica AI. Il sistema è ottimizzato non solo per le prestazioni di picco, ma per la produzione sostenuta di intelligenza: latenza prevedibile, alta utilizzazione attraverso fasi di esecuzione eterogenee ed efficiente conversione della potenza in intelligenza utilizzabile.

La piattaforma Rubin è costruita su sei nuovi chip, ciascuno progettato per un ruolo specifico nella fabbrica AI e concepito fin dall'inizio per operare come parte di un sistema rack-scale unificato. Questi chip formano un'architettura sincronizzata in cui le GPU eseguono carichi di lavoro dell'era transformer, le CPU orchestrano il flusso di dati e controllo, i fabric scale-up e scale-out muovono token e stato efficientemente, e processori di infrastruttura dedicati operano e proteggono la fabbrica AI stessa.

Alternative cinesi all'hardware NVIDIA

⬆ Torna su

Dal fronte cinese, un team con legami con l'Università di Tsinghua ha svelato Chitu, un nuovo framework ad alte prestazioni per l'inference di grandi modelli linguistici. Secondo una dichiarazione congiunta della startup Qingcheng.AI e di un team guidato dal professor Zhai Jidong di Tsinghua, Chitu può operare su chip made in China, sfidando il dominio delle GPU serie Hopper di NVIDIA nel supportare determinati modelli.

Il framework Chitu, reso open source, supporta modelli mainstream tra cui quelli di DeepSeek e della serie Llama di Meta Platforms. Nei test con la versione full-strength di DeepSeek-R1 utilizzando GPU NVIDIA A800, il framework ha ottenuto un aumento del 315% nella velocità di inference del modello riducendo contemporaneamente l'utilizzo della GPU del 50% rispetto a framework open source stranieri.

Verso una maggiore autonomia tecnologica

⬆ Torna su

L'iniziativa di Chitu fa parte di uno sforzo più ampio delle aziende cinesi di AI per ridurre la dipendenza da NVIDIA, le cui GPU ad alte prestazioni sono soggette ai controlli alle esportazioni statunitensi. NVIDIA è attualmente bandita da Washington dalla vendita dei suoi chip avanzati H100 e H800 della serie Hopper ai clienti con sede in Cina.

Questa combinazione di sviluppi – dati sintetici per l'addestramento, nuove architetture hardware e framework alternativi per l'inference – segna un momento significativo nell'evoluzione dell'ecosistema AI globale, con implicazioni sia per la ricerca che per gli aspetti geopolitici tecnologici.

Questo articolo è stato redatto esclusivamente sulla base delle fonti elencate, senza aggiunte speculative o informazioni esterne.

Fonti

⬆ Torna su

In breve

  • ai
  • chips
  • framework
  • nvidia

Link utili

Apri l'articolo su DeafNews