DigitalOcean e AMD ottimizzano l'inference di Character.ai con performance raddoppiate

La piattaforma Inference Cloud di DigitalOcean con GPU AMD Instinct garantisce a Character.ai un throughput di inference raddoppiato e riduzione del 50% dei co…

Contenuto

Scopri anche

In questo articolo:

Character.ai, piattaforma di intrattenimento AI con circa 20 milioni di utenti globali, ha migrato il proprio carico di lavoro di inference su DigitalOcean Inference Cloud Platform potenziata da GPU AMD Instinct. Il risultato è un raddoppio del throughput di produzione mantenendo bassa latenza e riducendo i costi del 50% per token.

La sfida: ottimizzare le performance di inference su larga scala

⬆ Torna su

Character.ai gestisce uno dei carichi di lavoro di inference più impegnativi sul mercato, con oltre un miliardo di query giornaliere. L'applicazione richiede prestazioni a bassa latenza su larga scala, caratterizzata da alto volume e alta concorrenza.

L'obiettivo tecnico specifico riguardava l'ottimizzazione del modello Qwen3-235B Instruct FP8 su un cluster DigitalOcean con GPU AMD Instinct. Il carico di lavoro è stato migrato da una configurazione generica e non ottimizzata su altri provider alla piattaforma AMD Instinct MI325X di DigitalOcean.

Risultati misurabili: 2x throughput e riduzione costi

⬆ Torna su

Dopo le ottimizzazioni, DigitalOcean ha conseguito un miglioramento fino al doppio del request throughput (QPS) per server MI325X 8x GPU rispetto alla configurazione generica precedente. Questo risultato è stato raggiunto mantenendo la latenza p90 del primo token e il time per output token entro limiti definiti.

La transizione ha ridotto il costo per token del 50% e ha sostanzialmente espanso la capacità utilizzabile per gli utenti finali di Character.ai. I miglioramenti hanno portato a un accordo pluriennale da otto cifre annuali con DigitalOcean per l'infrastruttura GPU.

Strategie di ottimizzazione a livello di piattaforma

⬆ Torna su

I guadagni di performance sono stati ottenuti attraverso ottimizzazioni a livello di piattaforma che includono strategie di parallelizzazione per modelli Mixture-of-Experts di grandi dimensioni, percorsi di esecuzione FP8 efficienti e kernel ottimizzati con AITER.

AITER (AI Tensor Engine for ROCm) è la libreria centralizzata di AMD di operatori AI ad alte prestazioni, progettata per accelerare i carichi di lavoro di machine learning su GPU AMD Instinct. Fornisce kernel ottimizzati integrabili in framework come PyTorch e JAX per massimizzare l'efficienza hardware.

Le ottimizzazioni includono anche l'allocazione topology-aware delle GPU e l'orchestrazione Kubernetes pronta per la produzione tramite DigitalOcean Kubernetes (DOKS). Insieme, queste capacità hanno permesso a Character.ai di scalare l'inference in modo prevedibile senza aumentare il carico operativo.

Integrazione software e compatibilità ROCm

⬆ Torna su

Character.ai esegue modelli utilizzando vLLM. Essendo la prima volta che utilizzava GPU AMD Instinct, era critico assicurare la compatibilità del software con ROCm, lo stack software AI end-to-end open di AMD.

AMD ha contribuito con un supporto ROCm esteso per vLLM upstream, garantendo quasi la piena compatibilità per il porting di applicazioni CUDA a ROCm per modelli open source generici. Durante i test iniziali con il modello Qwen3 usando un'immagine vLLM con supporto ROCm, sono emersi problemi di compatibilità risolti attraverso collaborazione tecnica stretta.

Configurazioni di inference distribuite

⬆ Torna su

Gli ingegneri DigitalOcean hanno ottimizzato le configurazioni di inference distribuite per bilanciare latenza, throughput e concorrenza. In alcuni scenari di produzione, queste ottimizzazioni hanno aumentato il throughput di 2x sotto gli stessi vincoli di latenza, migliorando direttamente il total cost of ownership.

La tecnica di distributed inference prevede multiple repliche su un singolo nodo e attraverso multiple nodi nel cluster, instradando le richieste in ingresso a repliche indipendenti. Non c'è condivisione di pesi o KV cache tra le repliche.

Tensor Parallelism seziona orizzontalmente gli strati del modello o i tensori attraverso diverse GPU. Expert Parallelism viene utilizzato per modelli Mixture of Experts per distribuire gli expert attraverso multiple GPU piuttosto che duplicarli.

Approccio hardware-software integrato

⬆ Torna su

DigitalOcean Inference Cloud è progettato per operare applicazioni AI in produzione, integrando scheduling hardware-aware e runtime di inference ottimizzati per estrarre prestazioni sostenute più elevate per nodo.

A differenza degli approcci cloud tradizionali che enfatizzano solo la disponibilità GPU, la piattaforma offre un paradigma hardware-software unificato dove orchestrazione e tuning a livello di sistema lavorano insieme per fornire efficienza dei costi, osservabilità e semplicità operativa.

L'approccio riflette la strategia più ampia di DigitalOcean: le GPU contano, ma i risultati contano di più. L'azienda sta progettando, operando e ottimizzando sistemi che possono fornire prestazioni significativamente più affidabili per i suoi clienti.

Impatto sul mercato AI infrastructure

⬆ Torna su

La deployment di Character.ai riflette un cambiamento più ampio su come l'infrastruttura AI viene costruita e valutata. Man mano che i carichi di lavoro di inference scalano, i clienti stanno dando priorità a performance prevedibili, semplicità operativa ed efficienza dei costi rispetto alle specifiche hardware grezze.

Secondo Paddy Srinivasan, CEO di DigitalOcean, questo lavoro dimostra cosa succede quando hardware avanzato incontra una piattaforma progettata specificamente per l'inference di produzione. L'obiettivo non è solo fornire modelli più veloci, ma rendere le applicazioni AI su larga scala più facili ed economiche da gestire.

Questo articolo è stato redatto esclusivamente sulla base delle fonti elencate, senza aggiunte speculative o informazioni esterne.

DigitalOcean e AMD ottimizzano l'inference di Character.ai con performance raddoppiate

Contenuto

Scopri anche

DigitalOcean e AMD ottimizzano l'inference di Character.ai con performance raddoppiate

La sfida: ottimizzare le performance di inference su larga scala

Risultati misurabili: 2x throughput e riduzione costi

Strategie di ottimizzazione a livello di piattaforma

Integrazione software e compatibilità ROCm

Configurazioni di inference distribuite

Approccio hardware-software integrato

Impatto sul mercato AI infrastructure

Fonti

In breve

Link utili