Google TurboQuant: l'algoritmo che comprime la memoria AI fino a 6x senza perdita di accuratezza

Google Research presenta TurboQuant, un algoritmo di compressione per LLM che riduce il KV cache di 6x e aumenta le prestazioni dell'8x. Implementazioni commun…

Contenuto

Google TurboQuant: l'algoritmo che comprime la memoria AI fino a 6x senza perdita di accuratezza

Scopri anche

Google TurboQuant: l'algoritmo che comprime la memoria AI fino a 6x senza perdita di accuratezza

Google TurboQuant: l'algoritmo che comprime la memoria AI fino a 6x senza perdita di accuratezza

In questo articolo:

Google Research ha reso pubblico TurboQuant, un algoritmo di compressione progettato per ridurre il footprint di memoria dei Large Language Model durante l'inferenza. Secondo i ricercatori, la tecnologia consente una riduzione del key-value cache di almeno 6 volte, con un aumento delle prestazioni fino a 8 volte nel calcolo dell'attenzione, il tutto senza alcuna perdita misurabile di accuratezza. L'annuncio ha generato un immediato confronto con "Pied Piper", la fittizia startup protagonista della serie TV "Silicon Valley", nota per il suo algoritmo di compressione quasi lossless.

La documentazione tecnica descrive TurboQuant come una soluzione al collo di bottiglia del KV cache, ovvero quella memoria ad alta velocità che memorizza le informazioni di contesto durante l'elaborazione. Man mano che i modelli processano input più lunghi, questa cache cresce rapidamente, consumando memoria GPU che altrimenti potrebbe servire più utenti o eseguire modelli più grandi.

Il funzionamento tecnico: PolarQuant e QJL

⬆ Torna su

TurboQuant si basa su due metodi complementari: PolarQuant e QJL (Quantized Johnson-Lindenstrauss). Il primo stadio converte i vettori di dati dalle coordinate cartesiane standard in coordinate polari, separando ogni vettore in una magnitudo e un insieme di angoli. Poiché le distribuzioni angolari seguono pattern prevedibili e concentrati, il sistema può saltare interamente l'espansivo passaggio di normalizzazione per blocco. Il secondo stadio applica QJL, una tecnica basata sulla trasformata Johnson-Lindenstrauss, che riduce il piccolo errore residuo del primo stadio a un singolo bit di segno per dimensione.

Il risultato combinato è una rappresentazione che utilizza gran parte del suo budget di compressione per catturare il significato dei dati originali, con un budget residuo minimo dedicato alla correzione dell'errore e nessun overhead sprecato in costanti di normalizzazione. I ricercatori spiegano che la quantizzazione tradizionale richiede costanti di normalizzazione – metadati memorizzati accanto ai bit compressi per indicare come decomprimerli – che spesso aggiungono da 1 a 2 bit extra per numero, vanificando parzialmente i guadagni di compressione.

I risultati dei benchmark

⬆ Torna su

Google ha testato TurboQuant su cinque benchmark standard per modelli linguistici a lungo contesto, tra cui LongBench, Needle in a Haystack e ZeroSCROLLS, utilizzando modelli open-source delle famiglie Gemma, Mistral e Llama. A 3 bit, TurboQuant ha eguagliato o superato KIVI, l'attuale baseline standard per la quantizzazione del key-value cache. Nei task di retrieval "needle-in-a-haystack", che verificano se un modello può individuare un'unica informazione sepolta in un lungo passaggio, TurboQuant ha ottenuto punteggi perfetti pur comprimendo la cache di un fattore sei.

A precisione 4-bit, l'algoritmo ha registrato un aumento di velocità fino a 8 volte nel calcolo dell'attenzione su GPU Nvidia H100 rispetto al baseline non compresso a 32 bit. I test hanno riguardato modelli da 8 miliardi di parametri, mentre la scalabilità a modelli più grandi rimane da dimostrare.

La reazione del mercato azionario

⬆ Torna su

Entro poche ore dalla pubblicazione del post di ricerca, i titoli dei produttori di memoria hanno registrato flessioni: Micron ha perso il 3%, Western Digital il 4,7% e SanDisk il 5,7%. Gli investitori hanno ricalcolato quanta memoria fisica l'industria AI potrebbe effettivamente richiedere. Analisti come Andrew Rocha di Wells Fargo hanno osservato che TurboQuant attacca direttamente la curva dei costi della memoria nei sistemi AI, sollevando la questione di quanta capacità di memoria l'industria necessiterà realmente.

Tuttavia, diversi analisti hanno invitato alla cautela, ricordando che la domanda di memoria AI rimane forte e che algoritmi di compressione esistono da anni senza alterare sostanzialmente i volumi di approvvigionamento. La reazione del mercato è stata definita da alcuni osservatori come sproporzionata rispetto all'impatto immediato della tecnologia.

Le implementazioni della community

⬆ Torna su

Sebbene Google non abbia rilasciato codice ufficiale, sviluppatori indipendenti hanno iniziato a implementare TurboQuant partendo dal solo paper accademico. Un developer ha costruito un'implementazione PyTorch con kernel Triton personalizzato, testandola su un modello Gemma 3 4B in esecuzione su RTX 4090, ottenendo output identico al baseline non compresso a precisione 2-bit. Un altro ha eseguito l'algoritmo su Apple Silicon via MLX con un modello 35B, segnando 6 su 6 nei test needle-in-a-haystack a ogni livello di quantizzazione.

Nella community di llama.cpp, almeno tre sviluppatori stanno lavorando su implementazioni C e CUDA, con uno che riporta 18 test su 18 superati e rapporti di compressione coerenti con le dichiarazioni del paper. Questi sforzi indipendenti suggeriscono che la matematica è riproducibile e i risultati reggono al di fuori dei benchmark di Google.

Implicazioni per l'infrastruttura AI

⬆ Torna su

La tecnologia arriva in un momento in cui l'industria AI deve confrontarsi con l'economia dell'inferenza. Allenare un modello è un costo una tantum, per quanto enorme. Eseguirlo, servendo milioni di query al giorno con latenza e accuratezza accettabili, rappresenta la spesa ricorrente che determina la fattibilità finanziaria dei prodotti AI su larga scala. Il key-value cache è centrale in questo calcolo: è il collo di bottiglia che limita quanti utenti concorrenti una singola GPU può servire e quanto può essere lunga la finestra di contesto che un modello può supportare praticamente.

Per le imprese che utilizzano o affinano i propri modelli AI, TurboQuant offre un'opportunità di miglioramento operativo immediato. A differenza di molte breakthrough AI che richiedono costosi riaddestramenti o dataset specializzati, TurboQuant è training-free e data-oblivious. Le organizzazioni possono applicare queste tecniche di quantizzazione ai loro modelli esistenti – siano essi basati su Llama, Mistral o Gemma – per ottenere risparmi di memoria e incrementi di velocità senza compromettere le prestazioni specializzate.

Applicazioni oltre i chatbot

⬆ Torna su

Oltre ai modelli linguistici, TurboQuant trova applicazione nel vector search, la tecnologia che alimenta le ricerche di similarità semantica su miliardi di elementi. Google ha testato l'algoritmo contro metodi esistenti sul dataset benchmark GloVe, riscontrando rapporti di recall superiori senza richiedere i grandi codebook o la messa a punto specifica per dataset che gli approcci concorrenti richiedono. Questo aspetto è rilevante perché il vector search sta alla base di tutto, da Google Search ai consigli di YouTube fino al targeting pubblicitario.

La compressione rende inoltre possibile l'AI su dispositivi edge. Con i limiti hardware di uno smartphone, tecniche come TurboQuant potrebbero migliorare la qualità degli output senza inviare i dati al cloud, una prospettiva per law firm che devono mantenere i dati dei clienti on-premises o startup che non possono permettersi fatture mensili di GPU cloud.

Limitazioni e sviluppi futuri

⬆ Torna su

È necessario notare che TurboQuant non è ancora stato distribuito su larga scala; rimane una breakthrough di laboratorio. I test di Google hanno riguardato solo modelli da 8 miliardi di parametri, e la scalabilità pulita a modelli più grandi non è ancora dimostrata. L'headline "8x speedup" si riferisce specificamente al calcolo dell'attenzione, non all'inferenza end-to-end. Inoltre, alcuni implementatori early hanno rilevato che il componente di correzione dell'errore QJL è complesso da azzeccare: l'approccio naive ha prodotto output inutilizzabili.

Una distinzione sollevata dalla community riguarda i due tipi di problema di memoria: il problema A, intra-sessione, riguarda la crescita del KV cache durante il contesto – ed è questo che TurboQuant risolve. Il problema B, inter-sessione, riguarda cosa accade quando la sessione termina e la cache sparisce: il modello riparte da zero la volta successiva, senza memoria delle interazioni passate. TurboQuant non tocca questo aspetto.

Il paper sarà presentato formalmente alla conferenza ICLR 2026 a Rio de Janeiro, con il paper complementare PolarQuant in programmazione ad AISTATS 2026 a Tangeri. I paper precedenti dello stesso gruppo, QJL, sono stati pubblicati ad AAAI 2025.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La compressione del key-value cache senza perdita di accuratezza potrebbe ridefinire l'economia dell'inferenza, riducendo uno dei costi ricorrenti più significativi per chi opera modelli su larga scala. Se i risultati si confermano su modelli più grandi, la domanda di memoria GPU per data center potrebbe subire una pressione al ribasso, con effetti a cascata sui produttori di componenti.

  • Scenario 1: TurboQuant scala efficacemente su modelli oltre gli 8 miliardi di parametri, diventando uno standard de facto per l'ottimizzazione dell'inferenza e riducendo i margini dei produttori di memoria.
  • Scenario 2: Le implementazioni community anticipano un'adozione ufficiale, ma la complessità del componente QJL rallenta l'integrazione nei framework principali, limitando l'impatto nel breve termine.
  • Scenario 3: La tecnica si estende al vector search e all'edge, rendendo economicamente sostenibile l'elaborazione locale su dispositivi con risorse limitate.

Cosa monitorare

⬆ Torna su
  • Test indipendenti su modelli con parametri superiori a 8 miliardi.
  • Integrazione in framework di inferenza diffusi come llama.cpp e PyTorch.
  • Reazione dei produttori di memoria nei prossimi report trimestrali.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • google
  • llm
  • inference
  • nvidia

Link utili

Apri l'articolo su DeafNews