Rebellions presenta Rebel 100: acceleratore AI multi-chiplet con interfaccia UCIe-Advanced

La startup sudcoreana presenta all'ISSCC 2026 un acceleratore AI a quattro chiplet con 144GB HBM3E e bandwidth inter-chiplet di 4TB/s, posizionandosi come alte…

Contenuto

Rebellions presenta Rebel 100: acceleratore AI multi-chiplet con interfaccia UCIe-Advanced

Scopri anche

Claude supera ChatGPT nell'App Store USA dopo il rifiuto di Anthropic a collaborare con il Pentagono
Samsung e NVIDIA annunciano AI factory con 50.000 GPU: collaborazione estesa ad AI-RAN, HBM4 e litografia computazionale
Cisco e Sharon AI lanciano la prima AI Factory sovrana in Australia con tecnologia NVIDIA
Intel: Boom dei Chip AI e Avanzamenti Foundry Guidano l'Ottimismo del Mercato
Nvidia N1 e N1X: i nuovi SoC Arm per laptop arrivano nel primo semestre 2026
Monai: prezzo, dati di mercato e progetto AI multi-modale su blockchain
NVIDIA Vera Rubin: la piattaforma AI in produzione per l'era dell'AI Agente
Elastic perde il 15% nonostante i risultati Q4 oltre le attese
Analisi della Guidance del Primo Trimestre 2026 di Intel: Criticità nella Supply Chain e Svalutazione Azionaria
Intel e SambaNova stringono partnership strategica per l'inferenza AI: presentato il chip SN50
iOS 26.3.1: Apple prepara aggiornamento di manutenzione prima dell'Apple Experience
AMD Instinct MI400 e MI500: la roadmap 2026-2027 per sfidare Nvidia nel mercato AI
NVIDIA registra ricavi record di 68,1 miliardi nel Q4 FY2026 con crescita del 73%
La strategia di Intel: dalla CPU tradizionale all'era dell'intelligenza distribuita
Intel investe 350 milioni in SambaNova e stringe partnership strategica per soluzioni AI inference
Monai: dati di prezzo, progetto AI su blockchain e analisi di mercato
SK Hynix accelera l'apertura di nuovi impianti per rispondere alla domanda di chip memory per AI
Nvidia: un investimento di 1.000 dollari dieci anni fa varrebbe oggi oltre 250.000 dollari
La Cina accelera sulla produzione di chip AI domestici per ridurre la dipendenza da Nvidia
Nvidia segna record di fatturato: Jensen Huang annuncia il punto di svolta dell'AI agentica

Rebellions presenta Rebel 100: acceleratore AI multi-chiplet con interfaccia UCIe-Advanced

In questo articolo:

Rebellions, startup sudcoreana specializzata in acceleratori per inferenza AI, ha presentato all'International Solid-State Circuits Conference (ISSCC) 2026 il proprio acceleratore Rebel 100, un sistema a quattro chiplet che utilizza l'interfaccia UCIe-Advanced per interconnettere i die. L'architettura rappresenta una delle prime implementazioni commerciali di acceleratori AI multi-chiplet basati sullo standard UCIe, con prestazioni dichiarate comparabili a quelle della GPU H200 di Nvidia a un consumo energetico inferiore.

Architettura quad-chiplet con UCIe-Advanced

⬆ Torna su

Il Rebel 100 adotta un design System-in-Package (SiP) composto da quattro die NPU (Neural Processing Unit) da 320mm² ciascuno, prodotti utilizzando il processo SF4X di Samsung e assemblati mediante la tecnologia di packaging avanzato I-CubeS. Ogni chiplet integra uno stack di memoria HBM3E 12Hi da 36GB, per una capacità totale di 144GB per pacchetto con bandwidth aggregato di circa 4,8TB/s.

L'interconnessione tra chiplet avviene tramite interfaccia UCIe-Advanced die-to-die operante a 16Gbps, con bandwidth aggregato di 4TB/s. La latenza FDI-to-FDI (Flit-Aware Die-to-Die) si attesta intorno agli 11 nanosecondi, consentendo di estendere le semantiche load-store della memoria in modo trasparente across i chiplet. Questo permette al SiP di comportarsi come un singolo processore piuttosto che come un cluster di die discreti.

La documentazione tecnica indica che ogni chiplet integra due Neural Core Cluster, ciascuno composto da otto neural core e 32MB di memoria condivisa. La memoria condivisa è partizionata in 16 slice con bandwidth aggregato di 64TB/s. Ogni chiplet contiene 64 router che formano una topologia mesh granulare 8×4 con tre canali logici separati: Data (D), Request (R) e Control (C). Il sistema include inoltre 256MB di scratchpad memory con bandwidth di 128TB/s.

Network-on-Chip 2D con routing XY

⬆ Torna su

Il network-on-chip (NoC) 2D interno utilizza uno schema di routing XY: i pacchetti viaggiano prima lungo un asse e poi lungo l'altro, con restrizioni di svolta applicate per evitare deadlock. L'arbitraggio interno ai router è gestito mediante un meccanismo weighted round-robin, che garantisce equità nel servizio del traffico proveniente da fonti diverse, ma con priorità regolabile. I pesi quality-of-service possono essere modificati a runtime per favorire determinati tipi di traffico in base al carico di lavoro.

Il mesh NoC 2D all'interno di ogni chiplet si espande logicamente attraverso UCIe, cosicché l'intero sistema quad-chiplet SiP si comporta come un unico processore connesso a mesh su livello logico. Considerando la bassa latenza chiplet-to-chiplet, questo approccio semplifica significativamente lo sviluppo software. Ogni chiplet dispone di tre interfacce UCIe-A per versatilità, e la configurazione completa scala fino a 256 router nell'intera mesh.

Sottosistema DMA e sincronizzazione hardware

⬆ Torna su

Rebellions ha implementato un sottosistema DMA configurabile con otto motori di esecuzione per ciascun die NPU, in grado di prelevare dati dalla memoria HBM3E locale, dalla HBM3E remota situata su un altro chiplet, o dalla memoria condivisa distribuita. Il bandwidth per DMA può raggiungere 2,6TB/s. Per prevenire che determinati task blocchino altri, l'azienda ha implementato controlli QoS a livello di task progettati per ridurre la latenza long-tail ed evitare congestione quando workload diversi vengono eseguiti simultaneamente.

La coordinazione del lavoro tra quattro chiplet richiede sincronizzazione accurata. Invece di affidarsi a uno scheduler dedicato, Rebellions ha implementato synchronization manager hardware in ogni NPU. Ogni chiplet integra un synchronization manager dedicato con logica di controllo hardwired che può coordinare l'attività tra die, sia sotto controllo centralizzato che in modo più autonomo. L'architettura evita specificamente le comunicazioni peer-to-peer dirette tra unità e le dipendenze inter-unità per ridurre traffico non necessario e overhead di coordinamento.

Prestazioni e confronto con H200

⬆ Torna su

Un singolo Rebel 100 SiP può erogare 2 PFLOPS in FP8 o 1 PFLOPS in FP16 senza sparsity, con un TDP di 600W. Secondo Rebellions, queste prestazioni sono in linea con quelle della GPU H200 di Nvidia, che opera a 700W. L'azienda dichiara inoltre 56,8TPS su LLaMA v3.3 70B con sequenze input/output single-batch 2k/2k, sebbene questi dati provengano dal vendor e non da test indipendenti.

Il design quad-chiplet con quattro die da 320mm² è stato scelto rispetto a soluzioni con due die reticle-size più grandi, considerando anche l'approccio EUV senza pellicole di Samsung che non favorisce particolarmente i die di grandi dimensioni. La resa di produzione e la facilità di sviluppo hanno guidato questa scelta architetturale.

Integrità di alimentazione e gestione termica

⬆ Torna su

L'acceleratore è classificato per un TDP di 600W, ma i transienti istantanei - quando più neural core si attivano simultaneamente - superano il livello nominale di due volte. I rapidi incrementi di corrente creano dip di tensione che pongono sfide significative per l'integrità di alimentazione dell'acceleratore quad-chiplet.

Per mitigare questi effetti, Rebellions ha implementato una tecnica di hardware staggering che sfasa i tempi di avvio dei neural core invece di attivarli simultaneamente, smussando le rampe di corrente e riducendo il rumore di alimentazione. Le misurazioni mostrano che lo switching sincronizzato produce picchi di corrente ripidi e disturbi di tensione evidenti, mentre l'attivazione sfasata produce transizioni più dolci e un rail di alimentazione più stabile.

Logica di controllo aggiuntiva limita dinamicamente il rate di issue delle istruzioni su finestre temporali brevi per ridurre ulteriormente i cambiamenti improvvisi di carico sia all'interno di un chiplet che tra die. Il pacchetto include inoltre quattro die di condensatori al silicio integrati (ISC) che incorporano capacità distribuita sui rail VDD per servire sia l'NPU che il PHY HBM3E.

Connettività host e scalabilità di sistema

⬆ Torna su

Sul lato sistema, Rebel 100 si connette agli host tramite due interfacce PCIe 5.x x16 che supportano SR-IOV e operazioni peer-to-peer. L'azienda posiziona il pacchetto quad-chiplet come unità fondamentale per sistemi cross-node e rack-level capaci di supportare modelli da trilioni di parametri e contesti da milioni di token.

Rebellions prevede che i partner costruiscano cluster scale-up e scale-out contenenti da dozzine a decine di migliaia di tali acceleratori AI. Sebbene non sia chiaro se l'azienda preveda di costruire SiP più grandi utilizzando chiplet esistenti, l'architettura attuale con 256 router mesh lascia aperta la possibilità di configurazioni con più di quattro chiplet.

Protocolli proprietari e deviazioni dallo standard UCIe

⬆ Torna su

Le specifiche UCIe 1.0 includono mappature per i protocolli CXL.io, CXL.mem e CXL.cache sopra interconnessione PCIe 6.0, ma queste sono mappature opzionali, non requisiti obbligatori. Lo standard supporta anche protocolli streaming e memory-semantics definiti dal vendor, approccio che Rebellions ha seguito con Rebel 100.

Rebellions ha implementato protocolli proprietari configurabili anziché adottare i protocolli basati su CXL standard. L'azienda ha sviluppato un sottosistema DMA configurabile interno e synchronization manager dedicati. Per l'affidabilità dell'interfaccia die-to-die, oltre alle funzionalità UCIe standard, sono stati implementati loopback mode multipli, tracking a livello di transazione e diagnostica a livello di canale. Per deployment commerciali, è stata aggiunta una modalità di switching configurabile che sacrifica una piccola quantità di prestazioni in cambio di migliori caratteristiche MTBF e MTTF.

Posizionamento competitivo e partnership strategiche

⬆ Torna su

Rebellions è supportata da due dei tre principali produttori di memoria HBM stacked - Samsung e SK Hynix - e sostenuta dai due maggiori operatori telecom sudcoreani. La partnership con Samsung come foundry e fornitore di tecnologia di packaging avanzato rappresenta un vantaggio strategico per l'azienda nel mercato globale degli acceleratori AI.

La startup ha recentemente aderito all'ecosistema Arm Total Design, collaborando con Marvell Technology per sfruttare segnalazione SerDes, interconnessioni chip-to-chip e packaging avanzato per creare acceleratori AI personalizzati. Il target include centri AI sovrani e neocloud regionali che potrebbero preferire acceleratori non soggetti a controlli all'export statunitensi.

La fusione con Sapeon Korea nel dicembre 2024 ha reso Rebellions il primo unicorno dei chip AI con sede in Corea del Sud, con una valutazione stimata superiore a 1,5 miliardi di dollari. L'azienda ha completato round di finanziamento Series A per 61 milioni di dollari nel 2020-2022, Series B guidata da KT Corp nel 2024, e Series C guidata da Arm Holdings con partecipazione di Samsung Ventures.

Strategia di mercato e prossimi passi

⬆ Torna su

REBEL-Quad sta entrando in produzione di massa su larga scala, con l'obiettivo di stabilire un nuovo standard per infrastrutture AI ad alte prestazioni e basso consumo destinate al mercato globale. L'azienda ha condotto demo live dell'hardware reale all'ISSCC 2026, dimostrando un livello di completezza comparabile a prodotti in produzione di massa.

La roadmap prevede l'estensione dell'architettura chiplet con prodotti futuri come REBEL-IO e REBEL-CPU, mirati a modelli da trilioni di parametri e deployment multi-nodo. Proof-of-concept con clienti globali sono previsti a breve. Il posizionamento come azienda di sistemi - che collabora con partner per design SoC, componenti chiplet, rack server AI e infrastruttura - differenzia Rebellions dai competitor focalizzati esclusivamente sul chip.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

L'approccio multi-chiplet con UCIe-Advanced adottato da Rebellions potrebbe ridefinire le architetture per inferenza LLM, offrendo un'alternativa strutturale alle GPU tradizionali. La scelta di protocolli proprietari anziché CXL standard suggerisce una strategia di ottimizzazione verticale che potrebbe influenzare l'ecosistema foundry.

Scenario 1: L'adozione di UCIe-Advanced come interfaccia de facto per acceleratori AI potrebbe accelerarsi se Rebel 100 dimostrerà vantaggi concreti in efficienza energetica rispetto alla H200.
Scenario 2: La partnership con Samsung Foundry e il sostegno di SK Hynix potrebbero consolidare un polo sudcoreano competitivo nei segmenti HBM e acceleratori dedicati.
Scenario 3: L'architettura mesh scalabile a 256 router lascia ipotizzare future configurazioni con più di quattro chiplet, estendendo potenzialmente il design a modelli più impegnativi.

Cosa monitorare

⬆ Torna su

Validazione indipendente delle prestazioni dichiarate su LLaMA v3.3 70B rispetto ai dati vendor.
Adozione commerciale effettiva dell'architettura quad-chiplet in cluster scale-up.
Evoluzione della compatibilità software con framework di inferenza esistenti.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Rebellions presenta Rebel 100: acceleratore AI multi-chiplet con interfaccia UCIe-Advanced

Contenuto

Scopri anche

Rebellions presenta Rebel 100: acceleratore AI multi-chiplet con interfaccia UCIe-Advanced

Architettura quad-chiplet con UCIe-Advanced

Network-on-Chip 2D con routing XY

Sottosistema DMA e sincronizzazione hardware

Prestazioni e confronto con H200

Integrità di alimentazione e gestione termica

Connettività host e scalabilità di sistema

Protocolli proprietari e deviazioni dallo standard UCIe

Posizionamento competitivo e partnership strategiche

Strategia di mercato e prossimi passi

Implicazioni e scenari

Cosa monitorare

Fonti

In breve

Link utili