NVIDIA rilascia Nemotron-Cascade 2: modello MoE da 30B con soli 3B parametri attivi per reasoning avanzato

NVIDIA presenta Nemotron-Cascade 2, un modello open-weight Mixture-of-Experts che attiva solo 3B parametri pur raggiungendo prestazioni da medaglia d'oro in co…

Contenuto

NVIDIA rilascia Nemotron-Cascade 2: modello MoE da 30B con soli 3B parametri attivi per reasoning avanzato

Scopri anche

Intel 18A e la strategia di recupero: produzione USA, partnership AI e sfide nel foundry
Chatbot sanitari e diagnosi: i rischi dell'affidarsi all'intelligenza artificiale per la salute
La geometria del rifiuto nei LLM: come controllare il comportamento nello spazio latente
OpenAI unifica ChatGPT, Codex e Atlas in una super app desktop: la risposta a Anthropic
L'efficienza energetica dei chip Nvidia: il nuovo imperativo per l'infrastruttura AI
Corea del Sud lancia la "AI Squid Game" per competere con USA e Cina
MiniMax M2: architettura MoE, benchmark competitivi e la sfida cinese ai modelli occidentali
OpenAI unifica ChatGPT, Codex e Atlas in una super app desktop
L'intelligenza artificiale tra opportunità di investimento e sfide etiche: un quadro del settore
Google Traduttore si evolve con Gemini: traduzioni contestualizzate e apprendimento integrato
Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani
NVIDIA GTC 2026: Annunciate Vera Rubin, OpenClaw e la piattaforma per l'IA agentica
Samsung e Nvidia consolidano l'alleanza AI: dal chip Groq 3 LPU all'AI Megafactory con oltre 50.000 GPU
Intelligenza artificiale e ragionamento: paradigmi a confronto e impatti cognitivi
AMD definisce le "Agent Computer" come nuova frontiera dell'AI PC
Nvidia fornirà 1 milione di chip ad Amazon Web Services entro il 2027
Intelligenza artificiale: storia, modelli generativi e confronto sull'affidabilità
Tecniche di addestramento e ottimizzazione degli LLM: dati, distillazione e quantizzazione
NVIDIA GTC 2026: Vera Rubin, OpenClaw e l'infrastruttura AI da un trilione di dollari
Evo 2 e longevità: l'IA progetta genomi ma la vita richiede più del 70% di precisione

NVIDIA rilascia Nemotron-Cascade 2: modello MoE da 30B con soli 3B parametri attivi per reasoning avanzato

In questo articolo:

NVIDIA ha annunciato il rilascio di Nemotron-Cascade 2, un modello open-weight Mixture-of-Experts (MoE) da 30B parametri totali che attiva solamente 3B parametri per token durante l'inferenza. Il modello rappresenta il secondo LLM open-weight a raggiungere prestazioni a livello di medaglia d'oro nelle competizioni IMO 2025 (International Mathematical Olympiad), IOI 2025 (International Olympiad in Informatics) e ICPC World Finals 2025, dopo DeepSeek-V3.2-Speciale-671B-A37B, un modello con 20 volte più parametri attivi.

La pubblicazione, avvenuta il 20 marzo 2026, introduce quella che NVIDIA definisce "densità di intelligenza": l'estrazione della massima capacità per singolo parametro attivo. L'approccio Cascade RL e la Multi-Domain On-Policy Distillation (MOPD) costituiscono il nucleo tecnico del progetto, offrendo un blueprint riproducibile per i team enterprise che sviluppano sistemi di reasoning specifici per dominio senza dover addestrare modelli da zero.

Architettura ibrida Mamba-2 e Transformer

⬆ Torna su

L'architettura di base deriva dalla famiglia Nemotron 3 Nano 30B-A3B, un design ibrido che combina layer state-space Mamba-2 con layer attention Transformer standard. I layer Mamba gestiscono l'elaborazione di token a lungo contesto in modo più efficiente rispetto all'attenzione completa, consentendo una finestra di contesto da 1M token effettivamente utilizzabile su hardware consumer.

Il footprint computazionale si colloca nella stessa fascia di Qwen3.5-35B-A3B, un altro modello da 3B parametri attivi che punta alla stessa fascia di efficienza. La quantizzazione Q4_K_M GGUF produce un file da 24,5GB, compatibile con una singola RTX 4090 da 24GB VRAM. La versione BF16 completa richiede circa 63GB VRAM, equivalenti a due schede H100 80GB.

Cascade RL: training sequenziale per dominio

⬆ Torna su

Il Reinforcement Learning è diventato la tecnica dominante per insegnare agli LLM il reasoning. La sfida è che l'addestramento simultaneo su domini multipli (matematica, codice, instruction-following, task agentic) causa spesso interferenze: migliorare le prestazioni in un dominio degrada quelle in un altro, fenomeno noto come "catastrophic forgetting".

Cascade RL affronta questo problema addestrando stadi di RL in sequenza, un dominio alla volta. Nemotron-Cascade 2 segue un ordinamento specifico: prima instruction-following RL, poi multi-domain RL (domande STEM, tool calling, output strutturato), poi on-policy distillation, quindi RLHF per l'allineamento delle preferenze umane, long-context RL, code RL e infine software engineering RL.

L'ordinamento non è fisso ma dipende dal comportamento del modello. Il team NVIDIA ha rilevato che instruction-following RL deve venire per primo perché può entrare in conflitto con l'allineamento delle preferenze umane, recuperabile successivamente. Code RL e software engineering RL funzionano meglio come stadi finali.

Multi-Domain On-Policy Distillation

⬆ Torna su

Anche con un ordinamento sequenziale accurato, inevitabilmente si verifica un drift delle prestazioni mentre il modello attraversa molteplici stadi RL. La soluzione NVIDIA è la Multi-Domain On-Policy Distillation (MOPD), inserita a metà della pipeline Cascade RL per ribilanciare le capacità.

L'approccio seleziona il miglior checkpoint intermedio per ciascun dominio e lo utilizza come "teacher" per distillare la conoscenza nel modello studente. Questi teacher non sono modelli esterni ma provengono dallo stesso run di training, condividendo tokenizer e architettura, eliminando i problemi di mismatch distributivo che sorgono con modelli di famiglie diverse.

MOPD opera a livello di token anziché di sequenza, rendendola sostanzialmente più efficiente in termini di campioni rispetto al RL con reward basati su outcome. Sul benchmark matematico AIME 2025, MOPD ha recuperato le prestazioni a livello del teacher entro 30 step di ottimizzazione, mentre GRPO standard ha richiesto più step per ottenere un punteggio inferiore. Su ArenaHard per l'allineamento delle preferenze umane, MOPD ha raggiunto 85,5 su prompt difficili in 52 step contro gli 80,7 di RLHF in 160 step.

Prestazioni sui benchmark di reasoning

⬆ Torna su

I risultati sui benchmark reasoning-intensive mostrano performance significative. Su LiveCodeBench v6, benchmark di programmazione con problemi da piattaforme competitive, Nemotron-Cascade 2 ottiene 87,2, superando Qwen3.5-35B-A3B (74,6), Qwen3.5-397B-A17B (83,6) e persino Kimi-K2.5-1T (85,0). Su HMMT February 2025, benchmark matematico rigoroso, raggiunge 94,6, a pari merito con modelli molte volte più grandi.

Su ArenaHard v2 per la qualità di allineamento, raggiunge 83,5, nettamente sopra i competitor nella stessa classe. Con Tool-Integrated Reasoning abilitato, le prestazioni AIME 2025 salgono a 98,6. Tutti i punteggi benchmark sono autoriportati da NVIDIA e non sono stati verificati indipendentemente.

Il modello supera il Nemotron-3-Super 120B di NVIDIA stessa su coding e instruction-following pur utilizzando 4 volte meno parametri attivi. La comparazione con Qwen3.5-35B-A3B è particolarmente rilevante dato che i due modelli hanno budget computazionali attivi identici, con un divario ampio su coding e matematica.

Modalità operative e deployment

⬆ Torna su

Il modello offre due modalità operative tramite template chat: Thinking Mode, attivata da un singolo token think seguito da newline, che attiva il reasoning profondo per task matematici e di codice complessi; e Non-Thinking Mode, attivata prependendo un blocco think vuoto, per risposte dirette più efficienti. Entrambe utilizzano lo stesso set di pesi.

Per i task agentic, il modello utilizza un protocollo strutturato di tool-calling nel system prompt. I tool disponibili sono elencati entro tag tools, e il modello esegue chiamate wrapper entro tag tool_call per garantire feedback di esecuzione verificabile.

Ollama rappresenta il percorso più rapido per l'uso locale: il comando ollama run nemotron-cascade-2 utilizza la variante Q4_K_M a 256K contesto. Per contesto completo da 1M o serving personalizzato, i pesi GGUF sono utilizzabili direttamente in llama.cpp o LM Studio, oppure tramite l'immagine Docker vLLM ufficiale da NVIDIA.

Limitazioni dichiarate

⬆ Torna su

Il technical report NVIDIA è esplicito sulle debolezze. Il modello sottoperforma rispetto a Qwen3.5-35B-A3B su benchmark knowledge-intensive come MMLU-Pro (79,8 vs 85,3) e GPQA-Diamond (76,1 vs 84,2), oltre che su diversi benchmark agentic come BFCL v4 e τ²-Bench. Gli autori notano esplicitamente che pre-training knowledge-intensive più forte e RL agentic sono necessari per sviluppi futuri.

Il modello è ottimizzato per deep reasoning e instruction-following, non per retrieval di conoscenza generale o interazioni multi-turno complesse. I team dovrebbero valutare rispetto ai casi d'uso specifici, non assumere superiorità generale.

La metodologia AIME avg@64 dà al modello 64 tentativi per problema e prende il miglior risultato, utile per comprendere le prestazioni massime ma non rappresentativo del comportamento produttivo su singola query. I numeri LiveCodeBench sono più direttamente utili poiché misurano pass@1.

Considerazioni pratiche e feedback dalla community

⬆ Torna su

I test condotti dagli sviluppatori su configurazioni locali hanno evidenziato alcuni aspetti pratici. Su Spark con quantizzazione AWQ, il modello raggiunge circa 70 token/secondo. Tuttavia, i primi test su task di programmazione reale hanno mostrato comportamenti inattesi: alcuni utenti hanno riportato difficoltà nel completare task semplici come elencare file JavaScript in sottocartelle, dove altri modelli come MiniMax M2.5 e Qwen 3.5 35B hanno avuto successo al primo tentativo.

Una discussione su HuggingFace ha evidenziato che il modello richiede parametri specifici in vLLM per riprodurre le valutazioni su AIME'25, AIME'26 e HMMT Feb25. NVIDIA stessa ha confermato che tale configurazione è determinante per i risultati sui benchmark critici.

Dati di training e licenza

⬆ Torna su

Il dataset SFT include 1,9M tracce di reasoning Python, 1,3M campioni di tool-calling Python, 816K prove matematiche e circa 500K esempi di software engineering divisi tra approcci agentic e agentless. Sia i dataset SFT che RL sono pubblici su HuggingFace.

La licenza non è Apache 2.0 ma NVIDIA Open Model License, permissiva: permette uso commerciale, modifica e redistribuzione, ma con termini distinti. Le organizzazioni con policy open-source rigorose dovrebbero revisionare i termini esatti prima del deployment.

Implicazioni per l'adozione enterprise

⬆ Torna su

Per i team enterprise, l'implicazione è che non serve necessariamente un modello base più grande o costoso: può essere sufficiente una pipeline di training migliore su quello già disponibile. Cascade RL e MOPD rappresentano un approccio specifico e riproducibile a questo problema.

La natura sequenziale del domain ordering in Cascade RL consente di aggiungere nuove capacità senza ricostruire l'intera pipeline. L'approccio MOPD di utilizzare checkpoint intermedi come teacher specifici per dominio elimina la necessità di modelli teacher esterni costosi; i team possono distillare dai propri snapshot migliori.

Un modello con 3B parametri attivi può essere servito a una frazione del costo e della latenza di un modello denso da 70B. I risultati NVIDIA suggeriscono che le tecniche di post-training come Cascade RL e MOPD possono colmare il divario di prestazioni su domini mirati, offrendo alle organizzazioni un percorso per deployare capacità di reasoning avanzate senza costi infrastrutturali frontier-level.

La questione aperta della generalizzazione

⬆ Torna su

Cascade RL funziona bene per domini con reward verificabili: la matematica ha risposte corrette, il codice ha test case, l'instruction-following ha checker basati su regole. L'estensione a task enterprise più aperti, dove la verifica è ambigua, rimane una sfida di ricerca attiva.

Per i team che costruiscono sistemi che richiedono deep reasoning su problemi strutturati (modellazione finanziaria, calcolo scientifico, software engineering, analisi di compliance), il technical report NVIDIA offre una delle metodologie di post-training più dettagliate pubblicate fino ad oggi.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

Il rilascio open-weight di un'architettura MoE con solo 3B parametri attivi apre prospettive interessanti per l'efficienza computazionale nel reasoning. La metodologia Cascade RL e la Multi-Domain On-Policy Distillation offrono un approccio riproducibile per chi sviluppa sistemi specializzati senza infrastrutture massive.

Scenario 1: L'adozione enterprise potrebbe accelerare per progetti reasoning-specifici, considerando il footprint su hardware consumer e l'architettura ibrida Mamba-2/Transformer per contesto lungo.
Scenario 2: Le limitazioni dichiarate su benchmark knowledge-intensive e task agentic potrebbero guidare iterazioni future verso un pre-training più robusto in quei domini.
Scenario 3: La competizione con modelli MoE dalle dimensioni maggiori potrebbe ridefinire i trade-off tra parametri totali e densità di intelligenza effettiva.

Cosa monitorare

⬆ Torna su

Validazioni indipendenti dei benchmark reasoning rispetto ai dati autoriportati
Feedback della community su task reali rispetto ai risultati di laboratorio
Configurazioni specifiche richieste per replicare le prestazioni dichiarate
Evoluzione delle capacità agentic nelle versioni successive

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

NVIDIA rilascia Nemotron-Cascade 2: modello MoE da 30B con soli 3B parametri attivi per reasoning avanzato

Contenuto

Scopri anche

NVIDIA rilascia Nemotron-Cascade 2: modello MoE da 30B con soli 3B parametri attivi per reasoning avanzato

Architettura ibrida Mamba-2 e Transformer

Cascade RL: training sequenziale per dominio

Multi-Domain On-Policy Distillation

Prestazioni sui benchmark di reasoning

Modalità operative e deployment

Limitazioni dichiarate

Considerazioni pratiche e feedback dalla community

Dati di training e licenza

Implicazioni per l'adozione enterprise

La questione aperta della generalizzazione

Implicazioni e scenari

Cosa monitorare

Fonti

In breve

Link utili